Неандерталец. В поисках исчезнувших геномов - Сванте Пэабо
Шрифт:
Интервал:
Закладка:
Все это вместе требовало значительных компьютерных мощностей, и, к счастью, Общество Макса Планка поддерживало нас безотказно. Специально для нашего проекта общество выделило блок из 256 мощных аппаратов в компьютерном центре в Южной Германии. Но даже с таким оборудованием обработка данных, прочтенных за один только запуск секвенатора, занимала несколько дней. Значит, на картирование всех данных уйдут месяцы. Удо считал, что лучше него никто с задачей не справится, и потому всю работу хотел сделать сам. Я призвал все имеющееся у меня терпение и стал ждать результатов.
Мы получили карты первых партий последовательностей ДНК из Брэнфорда. И тут Эд сразу же наткнулся на нечто чрезвычайно тревожное. У меня упало сердце, группа заволновалась: в коротких фрагментах обнаруживалось все больше отличий от человеческого генома, чем в длинных. Нечто похожее уже обсуждали Грэм Куп, Эдди Рубин и Джефф Уолл после нашей публикации в Nature. Они считали, что данная закономерность отражает появление загрязнений, и полагали, что длинные фрагменты на самом деле являются не чем иным, как занесенными в библиотеки современными ДНК. И именно поэтому в длинных фрагментах наблюдается меньше отличий. А мы-то надеялись, что “чистые комнаты” и специальные ДНК-метки избавят нас от этого ужасного бедствия – загрязнений! Эд как сумасшедший бросился снова перетряхивать данные: занесли мы загрязнения или нет.
И выяснил, что, к счастью, нет, не занесли. Он очень быстро увидел, что если установить более строгие критерии совпадения фрагментов, то распределение отличий от эталонного генома будет одинаковым и для коротких, и для длинных. И он наглядно показал, что если использовать обычные, принятые в генетике критерии сходства, то короткие фрагменты бактериальной ДНК оказываются близки к человеческой ДНК, и тогда исследователи (и мы, и Уолл, и все другие) ошибочно включают их в анализ. В этом случае в среднем на выборку получалось, что короткие фрагменты сильнее отличаются от человеческого генома, чем длинные. Стоило Эду ужесточить критерии сходства и отсева лишних фрагментов, как проблема исчезла. Я мысленно похвалил себя за то, что, несмотря на очевидную разницу в коротких и длинных фрагментах, не верил в гипотезу загрязнений.
Вскоре группа опять столкнулась с препятствием. На сей раз вопрос стоял еще более запутанный, и мне потребовалось некоторое время, чтобы вообще понять, в чем дело, – так что наберитесь терпения, и я попробую объяснить. Для человеческого генома нормой является некоторая вариабельность: в одной и той же хромосоме на тысячу нуклеотидов в среднем бывает одно отличие. И это результат мутаций в предыдущих поколениях. Так что когда нам при сравнении двух хромосом встречаются в определенной позиции два разных нуклеотида (или два разных аллеля, как сказали бы генетики), мы вправе спросить, который из аллелей старше (какой будет считаться “предковым аллелем”, а какой более поздним “продвинутым аллелем”). Это, по счастью, проверить не так трудно – посмотреть, который из нуклеотидов в данной конкретной позиции найдется в геномах шимпанзе и других человекообразных обезьян. Тот аллель, который у них обнаружится, и является предковым: скорее всего, он-то и был у общего предка шимпанзе и человека.
Нам важно было выяснить, насколько часто у неандертальца появляются продвинутые аллели, общие с современными людьми. Чем больше их найдется, тем, значит, позже разделились эволюционные ветви неандертальцев и людей. Взявшись за анализ новой информации из 454 летом 2007- го, Эд забил тревогу. Он подтвердил более раннее наблюдение, сделанное на небольшой выборке, – его опубликовали Уолл с группой ученых в 2006 году. По сути, они написали, что длинные фрагменты неандертальской ДНК – а речь идет о фрагментах в 50 нуклеотидов и более – содержат больше продвинутых аллелей, чем короткие. Таким образом, получалось, что длинные фрагменты связаны более тесным родством с современным человеком, чем короткие, – наблюдение парадоксальное, но, вполне возможно, опять-таки являющееся результатом все тех же загрязнений.
На пятничных собраниях мы ни о чем другом и не говорили, только об этом вопросе. Одно предположение следовало за другим, и все безрезультатно. В какой-то момент у меня кончилось терпение, и я приготовился к ужасному поражению: может, действительно виной всему чужеродные ДНК и пришло время сдаться. Признать, что составить сколько-нибудь правдоподобный неандертальский геном невозможно. Мыслей больше не было ни одной, хотелось рыдать. Я, конечно, себе этого не позволил, но все равно многие в группе почувствовали, что мы по-настоящему близки к провалу. Может быть, именно это и подстегнуло группу, придало участникам куражу. Я заметил, что у Эда появились круги под глазами, будто он не спал несколько недель. Он-то и решил головоломку.
Вспомним, что продвинутый аллель появляется как мутация у отдельного индивида – что по определению делает продвинутый аллель редкостью. Если рассматривать геном в целом, то примерно 35 процентов индивидуальных различий в нуклеотидных позициях приходится на продвинутые аллели, а 65 – на предковые. Эд догадался вот о чем: такое распределение означает, что если во фрагменте неандертальской ДНК присутствует продвинутый аллель, то от соответствующего фрагмента человеческого генома он будет отличаться в 65 процентах случаев и совпадать только в 35 процентах. Таким образом, получается, что фрагмент неандертальской ДНК скорее совпадет с человеческим, если присутствует предковый аллель! Кроме того, Эд понял, что компьютерная программа картирования часто не распознает короткие фрагменты, не совпадающие с человеческими аналогами. А длинные, наоборот, узнает: они естественным образом имеют больше совпадений по позициям, и потому программа их засчитывает, даже если в них имеется отличие-другое. В результате программа чаще отсеивает короткие фрагменты с продвинутыми (более редкими) аллеями, чем длинные, и на выходе получается, что в коротких фрагментах меньше продвинутых аллелей, чем в длинных. Эду пришлось несколько раз втолковывать мне всю эту логику, пока я не уразумел. И даже тогда я не до конца верил собственному чутью, все надеялся, что Эд сумеет отыскать более наглядное доказательство.
В конце концов Эд изобрел-таки хитроумный способ – что угодно, только бы не видеть, как я рыдаю на собрании в пятницу. Он просто взял из выборки длинные фрагменты ДНК и разрезал их пополам – естественно, виртуально, в компьютере, – получив таким образом фрагменты вдвое короче. Затем он прогнал эти короткие фрагменты через программу картирования. И, как по волшебству, частота появления продвинутых аллелей снизилась по сравнению с частотой продвинутых аллелей в длинных фрагментах. А ведь из них-то и были нарезаны короткие фрагменты. А недостача продвинутых аллелей получалась как раз из-за того, что короткие фрагменты с такими аллелями “вызывали подозрение” у компьютерной программы и она их отсеивала. Ну наконец-то, вот оно, объяснение, и вовсе это не загрязнения! Хотя казалось очевидным, что дело в них. По крайней мере, теперь мы имели возможность выявить картину загрязнений в том первом, пробном анализе материала из Nature. Я мысленно выдохнул с облегчением, когда Эд представил свой эксперимент. Мы опубликовали наши догадки в узкоспециальной статье в 2009 году[58].
Работа Эда еще раз убедила меня в том, как необходим прямой количественный анализ загрязнений. Каждую пятницу мы заново обсуждали способы оценки уровня загрязнений ядерной ДНК. Но теперь, когда об этом заходила речь, я оставался спокоен. Я знал, что мы на верном пути.