Informační revoluce v genetice

Rozluštění tajemství lidského genomu by nebylo možné bez počítačového zpracování obrovského množství dat, mimo jiné většiny ze tří miliard chemických součástek, z nichž se skládá genetický plán našeho druhu. Co nám ale tato revoluce v ,,bioinformatice" přinesla především, je jasné potvrzení evolučního principu veškerého života na Zemi.

Sekvenční data, ať už z bílkovin nebo nukleových kyselin, se dobře hodí k počítačovému zpracování, protože je lze snadno digitalizovat a rozložit na základní složky. Jednoduché programy dokáží porovnat dva nebo víc řetězců těchto složek a vyhodnotit míru jejich shodnosti, prohledat ohromné databáze a porovnat nové sekvence s již známými a seskupovat skupiny sekvencí do podoby schématického rodokmenu.

Důsledky výzkumu prováděného na prvních zkoumaných bílkovinách před bezmála půlstoletím byly dalekosáhlé. Všechny tyto sekvence byly poměrně krátké - inzulín obsahuje jen asi 50 aminokyselin, podle daného druhu -, ale odlišnost mezi druhy byla zřejmá.

Můj vlastní zájem začal před čtyřiceti lety u jedné z těchto jednoduchých molekul, když jsem byl postgraduálním studentem ve Svédsku. Fibrinopeptidy jsou krátké sekvence, jež lze poměrně snadno vyčistit a mají tu výhodu, že se druh od druhu výrazně mění. Měli jsme proto možnost prokázat výraznou shodu mezi fosilním záznamem a většinou změn pozorovaných u sekvencí fibrinopeptidů. Bylo tedy očividně možné interpretovat evoluční minulost pomocí jsoucích genetických sekvencí.

Pro další rozvoj byly ovšem nezbytné pokroky ve výpočetní technice. V roce 1965 Robert Ledley založil první skutečnou databázi sekvencí, Atlas bílkovinných sekvencí a struktur. V roce 1967 badatelé vytvořili genetický stromový diagram dvaceti živočichů a hub, který měl prakticky stejné uspořádání větvení, jako by jej načrtl klasický přírodovědec, ačkoli jejich počítač neměl ani ponětí o srovnávací anatomii, paleontologii, embryologii a jiných, nemolekulárních vlastnostech daných forem života. V roce 1970 konečně jistá báječná inovace ve výpočetní technice umožnila náležité seřazení sekvencí aminokyselin (což je nezbytné pro veškerou další práci s daty).

Interpretace sekvenčních dat se poté vyvinula ve dvou rovinách. Zaprvé tu byl zájem o vztahy mezi organismy. Předpokládalo se, že se nahodilé změny objevují ve všech větvích genetického diagramu, ale že v závislosti na bílkovině přežije jen jejich určitá malá část. Kdyby byl tento podíl přeživších změn konstantní, bylo by možné spočítat vzdálenosti oddělující jsoucí sekvence. Druhý způsob porovnávání se zaměřoval na takzvané paralogní bílkoviny, které pocházejí ze společného předka v rámci určitého tvora jako výsledek genových duplikací.

Subscribe to PS Digital
PS_Digital_1333x1000_Intro-Offer1

Subscribe to PS Digital

Access every new PS commentary, our entire On Point suite of subscriber-exclusive content – including Longer Reads, Insider Interviews, Big Picture/Big Question, and Say More – and the full PS archive.

Subscribe Now

Oba typy srovnávání ukázaly, že nové bílkoviny pocházejí ze starších, právě tak, jak by předpověděla evoluční teorie. Duplikace částí genomu DNA se vyskytují neustále ve všech organismech, převážně jako důsledek nahodilých případů zlomu a znovuspojení. Většina těchto duplikovaných úseků je odsouzena k zániku, protože veškeré bílkoviny, jež jejich geny vytvoří, jsou nepotřebné. Občas se ovšem mírně modifikovaný genový produkt prokáže jako adaptivně výhodný a vznikne tak nová bílkovina. Její funkce je často velmi podobná té předchozí, ale tu a tam dochází k dramatickým změnám.

Sekvenování DNA se začalo široce využívat v roce 1978. Téměř okamžitě existující databázi sekvencí bílkovin zaplavily nové genetické informace. Byla založena druhá databanka, GenBank, ale ta se zpočátku zaměřovala výhradně na sekvence DNA. A přesto se zajímavé informace ukrývaly v přeložených sekvencích DNA, to znamená v jejich bílkovinných ekvivalentech.

Jednalo se jeden z oněch zřídkavých okamžiků, kdy i amatér má příležitost konkurovat profesionálům. Rozeběhl jsem tedy vlastní databázi využívající především přeložených sekvencí DNA. Nazval jsem ji NEWAT (New Atlas). Vybaveni velmi primitivním počítačem a několika jednoduchými programy, které napsal vysokoškolský student, jsme začali každou novou sekvenci porovnávat se všemi dříve nahlášenými sekvencemi a objevili jsme naprosto nečekané vztahy. Od zahájení Human Genome Initiative na konci 80. let nebylo už při rozvoji nových poznatků omezujícím faktorem množství dat, ale náhle to bylo jejich zvládnutí .

Mnozí vědci o projektu lidského genomu pochybovali. Poukazovali na to, že lidský genom obsahuje stokrát víc sekvencí aminokyselin než existující databáze. Jak bychom tedy mohli geny rozpoznat? Jak můžete srovnávat s něčím, co nebylo dosud nalezeno?

Každý gen v genomu ovšem není úplně novým výtvorem a ne všechny bílkovinné sekvence jsou možné - počet různých sekvencí by jinak zdaleka přesahoval počet atomů ve vesmíru. Skrze duplikaci, multiplikaci a modifikaci malé prvotní skupiny genů se objevila jen nepatrná část možných sekvencí. Důsledkem je to, že většina genů se vztahuje k jiným genům.

Byl jsem přesvědčen, že nám bioinformatika umožní identifikovat všechny geny výhradně pomocí sekvenčního prozkoumání. Po dokončení první desítky mikrobiálních genomů stále nebyla určena přibližně polovina genů - a tato míra přetrvávala v celé první stovce dokončených genomů, včetně genomu lidského. Dokonce i u jednoho z nejstudovanějších organismů, E. coli , existuje velké množství genů, jejichž funkce nebyla nikdy odhalena.

Přesto platí, že prospěch z dešifrování genomů je značný. Sliby rychlého lékařského využití byly zřejmě přehnané. Inherentní hodnota je ovšem nevyčíslitelná: příležitost pochopit, kdo jsme, odkud pocházíme a které geny my lidé sdílíme s ostatním živým světem.

https://prosyn.org/LCRkIu5cs