Геном человека: Энциклопедия, написанная четырьмя буквами - Вячеслав Тарантул
Шрифт:
Интервал:
Закладка:
В течение многих лет изучение генов и их функций основывалось на экспериментах в системах in vivo (в живом) и in vitro (в пробирке). Лишь в 80-х годах на помощь экспериментаторам пришло мощное дополнение — компьютер. Появилось и свое латинское обозначение для этого подхода — in silico, то есть в компьютере. Компьютеры были сконструированы еще в 60-е годы, но тогда они были лишь вспомогательным средством для обработки и хранения ограниченного объема данных. Техника постепенно совершенствовалась, и с конца 80-х началось создание баз данных, в которых теперь хранится информация о миллионах последовательностей нуклеотидов в ДНК и РНК и об огромном числе последовательностей аминокислот в белках.
Однако вся эта огромная информация в значительной мере была бы бесполезной без ее упорядочения и систематизации, подобно тому, как без инвентаризации книг в гигантских книгохранилищах просто невозможно найти нужную нам книгу. Компьютерная геномика стала заниматься тем же, чем до того занимались классическая биохимия и молекулярная биология, но не с использованием пробирки, а с помощью специальной компьютерной техники. Этот подход иногда называют «сухой» биохимией.
Без компьютерных биоинформационных технологий (геноинформатики, или, в более широком смысле, — биоинформатики) развитие геномных исследований вообще едва ли было бы возможным. Даже трудно себе представить, как бы ученые смогли собрать, классифицировать и разобраться с тем огромным объемом информации, которая заключена в двухметровой молекуле ДНК.
Обратим внимание читателя лишь на некоторые основные информационные задачи, которые необходимо было решать при изучении генома человека, а некоторые из них еще предстоит решить. В первую очередь нужно отметить то обстоятельство, что работа с геномами высших организмов, и особенно с геномом человека, — это работа с огромными объемами информации. Один миллион п. н. ДНК эквивалентен примерно 1 мегабайту (1 млн. байтов). Следовательно, для хранения в компьютере только информации о последовательности генома человека требуется не менее 3 гигабайт. Одной из важнейших задач для реализации программы «Геном человека» была организация процесса создания окончательного «текста», состоящего из миллиарда слов, десятков тысяч предложений и огромного числа страниц, собранных в 24 тома. Этот процесс с самого начала работ по программе «Геном человека» был прекрасно организован. Данные по секвенированию, получаемые в разных лабораториях мира, предварительно преобразовывались из аналоговых сигналов в цифровые для того, чтобы их можно было обрабатывать на компьютере. В Центре биомедицинских исследований Массачусетского технологического института в США круглосуточно принимались вновь собранные данные, автоматически регистрировались и архивировались. Все они сразу же автоматически привязывались к определенным хромосомам человека. Далее, каждая вновь поступившая последовательность нуклеотидов пересылалась по Интернету в GenBank — общедоступную базу данных, обслуживаемую Национальным центром биотехнологической информации (www.ncbi.nlm.nih.gov), а уже оттуда поступала в другие общедоступные базы данных во всем мире. Организаторы программы старались предоставить доступ к этим данным как можно быстрее и как можно большему числу пользователей. Трудно себе даже представить, как без использования компьютеров можно было бы из сотен тысяч «текстов», которые читались в отдельности разными исследователями в разных лабораториях мира, собирать гигантскую единую «Энциклопедию человека». Этот процесс напоминал собой сбор без предварительного рисунка гигантского паззла, состоящего из сотен тысяч мелких фигур, сваленных в кучу.
Другая не менее сложная задача, решаемая геноинформатикой, — компьютерный анализ ДНКовых текстов, что чрезвычайно важно для их правильного «прочтения». Поиск генов в геноме человека затруднен тем, что в ДНК нет абсолютно четких «знаков препинания», которые бы указывали на начало и конец генов-предложений и других функционально значимых элементов. При этом методы классической генетики имеют ограниченное применение для человека — ведь человек, в отличие от мух или мышей, не может быть объектом генетических экспериментов. Основная трудность при идентификации генов состоит в определении их экзон-интронной структуры, т. е. определении кодирующих и некодирующих участков. И здесь на помощь приходила и приходит геноинформатика. На основе статистического анализа ученые научились с определенной долей вероятности устанавливать, к какому участку генома относится та или иная изучаемая нуклеотидная последовательность ДНК. Это схоже с ситуацией в газетном тексте. Вот наш глаз остановился на фразе «от Парижа до Находки ОМСА — лучшие колготки», и сразу становится понятным, что это реклама, а не текст статьи, так как подобное словосочетание в обычных публицистических статьях практически никогда не встречается. Примерно так же обстоит дело и с определенными сочетаниями нуклеотидов в ДНКовом тексте. Выявлены определенные сочетания нуклеотидов, которые указывают на принадлежность анализируемого фрагмента генетического текста к интрону или экзону, кодирующему белок.
В настоящее время разработан комплекс программ распознавания разных участков генома, которые позволяют с определенной вероятностью вычленять такие функциональные участки в длинных последовательностях ДНК. Уже не вызывает сомнения, что многое из того, что раньше делалось только с помощью специальных сложных методов, сейчас можно осуществить с помощью вычислений. В частности, любую секвенированную нуклеотидную последовательность ДНК можно попытаться разметить и найти в ней границы как самого гена, так и его регуляторных последовательностей, не прибегая к помощи клонирования определенных последовательностей ДНК, их секвенирования и анализа экспрессии генов, а всего лишь с использованием специальных компьютерных программ. Компьютерные анализы уже привели к расшифровке многих «предложений» ДНКового текста. Такого рода работы, проводимые в нашей стране, зачастую не только не отстают, но даже значительно опережают аналогичные исследования в других странах. Предсказание белок-кодирующих генов с помощью компьютерных алгоритмов (этот метод назван ab initio) хорошо получается в случае относительно небольших геномов. Однако применительно к геному человека этот подход не всегда срабатывает в полной мере, т. к. гены человека часто устроены из маленьких экзонов и огромных интронов. Не отработаны также точные критерии для поиска не кодирующих белок генов. В этом заключается причина, почему до сих пор мы не можем назвать точное число генов в геноме человека, хотя он весь секвенирован.
Третья, не менее важная задача геноинформатики, касающаяся генома человека, — создание книги под названием «Функционирующий геном». Информация о геноме человека, накопленная сейчас в базах данных, касается в основном одного аспекта организации геномной ДНК, а именно ее первичной структуры, то есть последовательности нуклеотидов. Но для описания функциональных особенностей геномов, например особенностей регуляции экспрессии содержащихся в них генов, структуры и функции кодируемых ими белков и др. потребуются неимоверно большие объемы информации. Например, оценено, что для описания пространственной структуры лишь одного белка среднего размера (около 600 аминокислот) требуется около 200 страниц текста. А число белков уже сейчас оценивается не менее, чем в 500 000 (по некоторым расчетам оно достигает 1 млн.). Ясно поэтому, что сведения о расшифрованных белках будут храниться в компьютерных библиотеках сверхгигантского размера.