Информационная революция в области генетики

Невозможно раскрыть секрет генома человека без компьютерной обработки огромных массивов данных, включая большинство из 3 миллиардов химических веществ, входящих в состав генома нашего вида. Однако данные, полученные в результате этой революции в области биоинформатики прежде всего наглядно подтверждают эволюционную теорию происхождения жизни на Земле.

Данные о последовательностях, как из белков так и кислот хорошо походят для компьютерной обработки, потому что их легко перевести в цифровой формат и выделить их составляющие элементы. Простая компьютерная программа может сравнить две и более цепочки этих компонентов, оценить степень сходства между ними, осуществлять поиск в большой базе данных, чтобы сравнивать новые соединения с уже существующими, и объединять группы последовательностей в генные карты.

Значение первых исследований протеинов, осуществленных более полувека назад, было огромным. Все эти соединения были достаточно небольшими - в состав инсулина входят всего лишь 50 аминокислот, в зависимости от вида - но разница между видами была на лицо.

Мой интерес к этой проблеме начался с изучения одной из этих простых молекул 40 лет назад, когда я был аспирантом в Швеции. Фибринопептиды являются сравнительно небольшими последовательностями, которые достаточно легко выделить и они обладают большой вариабельностью в зависимости от вида. В результате нам удалось продемонстрировать сильную зависимость между данными, полученными из ископаемых и изменениями в соединениях фибринопептидов. Было легко интерпретировать эволюционное прошлое с точки зрения существующих геномов.

Однако прогресс в области компьютерных технологий был абсолютно необходим для дальнейших исследований. В 1965 году Роберт Ледли создал первую базу данных реальных соединений, получившую название Атлас белковых соединений и структур. В 1967 году исследователи обнародовали генетические карты некоторых животных и грибов, в которых гены обладали тем же порядком следования, как если бы они были созданы классическим биологом, даже если их компьютер не обладал никакой информацией о сравнительной анатомии, палеонтологии, эмбриологии и других немолекулярных атрибутах этих существ. Наконец в 1970 году в результате революционного открытия в области компьютерных технологий стало возможным составление правильных рядов аминокислотных соединений (что является необходимостью для обработки данных).

После этого обработка данных соединений развивалась по двум направлениям. Прежде всего, существовал естественный интерес к изучению взаимоотношений между организмами. Существовало предположение, что происходят случайные изменения на всех уровнях генетической карты, но в зависимости от типа белка выживают лишь некоторые небольшие части. Если бы уровень выживаемости был постоянным, то можно было бы посчитать расстояние между существующими соединениями. Второй тип сопоставления фокусировался на так называемых паралогусных белках, который произошли от общего предка в рамках одного существа в результате дубликации генов.

Subscribe to PS Digital
PS_Digital_1333x1000_Intro-Offer1

Subscribe to PS Digital

Access every new PS commentary, our entire On Point suite of subscriber-exclusive content – including Longer Reads, Insider Interviews, Big Picture/Big Question, and Say More – and the full PS archive.

Subscribe Now

Оба типа сравнения показывают, что новые протеины развиваются из старых, в точности как и предполагает теория эволюции. Удвоение частей генома ДНК постоянно происходит во всех организмах, в основном в результате случайных поломок и соединений. Большинство этих удвоенных соединений обречены на исчезновение, потому что любые протеины, которые производят эти гены оказываются ненужными. Однако иногда немного измененный ген приспосабливается и рождается новый белок. Часто бывает, что его роль чрезвычайно сходна с ролью старого протеина, но иногда происходят и кардинальные изменения.

Потом в 1978 стали широко использоваться последовательности ДНК. Почти тотчас же, море новой генетической информации заполнило существующую базу данных белковых соединений. Был создан второй склад, так называемый GenBank, но первоначально он состоял лишь из соединений ДНК. Однако наиболее интересная информация состояла в трансформации ДНК, то есть в их белковых соединениях.

Появился уникальный момент, когда любители могла на равных соперничать с профессионалами. Таким образом, я создал свою собственную базу данных, делая переводы соединений ДНК. Я называл ее NEWAT (Новый Атлас). Вооружившись очень примитивным компьютером и несколькими простыми программами, написанными студентами, мы начали сопоставлять каждое новое соединение со всеми уже ранее зарегистрированными соединениями и обнаружили много совершенно неожиданных взаимосвязей. В это время была создана Инициатива по расшифровке генома человека в конце 80-х, объем данных уже не служил ограничительным фактором в расширении знаний, неожиданно оказалось, что проблема заключается в управлении массивами данных.

Многие ученые были настроены скептически по поводу Проекта генома человека. Они указывали на то, что геном человека состоит из большего количества аминокислотных соединений, чем все существующие базы данных. Так каким же образом расшифровать гены? Как можно сопоставить что-то, что никогда не удавалось обнаружить?

Однако каждый ген в составе генома не является абсолютно новым образованием и не все белковые соединения возможны, иначе количество соединений превышало бы число атомов во вселенной. Существуют лишь небольшое количество от общего числа возможных соединений, которые образовались посредством удвоения, мультипликации и модификации небольшого числа изначально существовавших генов. В результате многие гены связаны друг с другом.

Я был уверен, что биоинформатика даст нам возможность расшифровать все гены только на основании исследования соединений. Однако после дополнения первого десятка микробиологических генов, половина этих генов остались нераскрытыми. Этот уровень сохранялся для ста первых генов, включая геном человека. Даже наиболее изученные организмы, такой как кишечная палочка, обладает большим количеством генов, чья функция так и не была обнаружена.

Тем не менее, трудно переоценить значение раскрытия генной информации. Обещания быстрого использования в медицине возможно преувеличены. Но ценность этих открытий неизмерима: возможность понять кто мы, откуда мы произошли и какие гены общие для человека и всех остальных живых существ.

https://prosyn.org/LCRkIu5ru