В июне 2000 года две соперничающие группы исследователей обменялись рукопожатием в связи с общим успехом в достижении важной вехи в биологии — получении чернового наброска генома человека.
То, что началось с неполной карты наших хромосом, с тех пор превратилось в огромный кладезь индивидуальных последовательностей со всех уголков земного шара, и во многих случаях простирающихся далеко назад во времени.
Где-то в этом океане расшифрованной ДНК находится история нашего общего человечества.
К сожалению, прочитать это легче сказать, чем сделать. Проблема заключается не только в массе данных, но и в незначительных различиях в выборках, различных форматах и методах анализа, отдающих предпочтение различным типам ошибок, что препятствует единой интерпретации.
Теперь исследователи из Института больших данных (BDI) при Оксфордском университете в Великобритании сделали важный шаг, объединив лес из более чем 3600 отдельных последовательностей из 215 популяций в одно огромное дерево.
Ветви дерева состоят из умопомрачительного 231 миллиона родословных. В его основе лежат корни, представленные восемью древними, очень подробными последовательностями человеческого генома, с тысячами более мелких фрагментов, используемых для подтверждения их места глубоко в нашем прошлом.
Среди них три генома неандертальца , один геном денисовца и небольшая семья, жившая в Сибири более четырех тысяч лет назад.
«По сути, мы реконструируем геномы наших предков и используем их для формирования ряда связанных эволюционных деревьев, которые мы называем «последовательностью дерева», — говорит генетик Энтони Уайлдер Вонс, который руководил исследованием во время получения докторской степени в BDI.
«Тогда мы можем оценить, когда и где жили эти предки».
Их метод древовидной последовательности использует то, что известно как краткая структура данных — вычислительная концепция, направленная на представление данных в оптимальном объеме пространства, что также ограничивает количество времени, необходимого для проверки всего этого с вопросами.
Мы могли бы применить подобное мышление при сохранении файлов на нашем собственном компьютере, находя компромисс между сжатием документов и сжатием их в длинные списки папок или просто сохраняя все на рабочем столе.
В этом конкретном случае древовидная последовательность находит корреляции между различными ветвями дерева, чтобы упростить изучение больших объемов информации.
Путем преобразования данных в графы с узлами, представляющими различные родословные, и сопоставления мутаций по краям массивные генетические базы данных можно не только втиснуть в относительно небольшое пространство, но и упростить доступ к ним с помощью алгоритмов, предназначенных для поиска родственников.
«Сила нашего подхода заключается в том, что он делает очень мало предположений об исходных данных и может также включать как современные, так и древние образцы ДНК», — говорит Вонс, который далее объясняет свою работу.
Добавление меток к географическому положению последовательностей позволило команде оценить, где когда-то жили определенные общие предки и как они перемещались.
Это не только раскрывает события, о которых мы уже подозреваем, например, как человеческое население мигрировало из Африки , но и намекает на изменения в плотности населения внутри групп предков, о которых мы все еще изучаем, таких как денисовцы .
Благодаря эффективности этого процесса у уже впечатляющего дерева есть много возможностей для роста, поскольку в будущем станет доступно больше генетических данных.
Добавление еще миллионов геномов только сделает любые дальнейшие результаты более точными, точно указав, где новая последовательность вписывается в генеалогию, которая простирается по всему миру.
«Эта генеалогия позволяет нам увидеть, как генетическая последовательность каждого человека связана с любой другой во всех точках генома», — говорит генетик-эволюционист BDI Ян Вонг.
Думая еще шире, нет никаких причин, по которым тот же подход нельзя было бы применить к другим видам , возможно, когда-нибудь внесшим свой вклад в глобальный гобелен жизни на Земле.
«Хотя в центре внимания этого исследования находятся люди, этот метод действителен для большинства живых существ, от орангутангов до бактерий», — говорит Вонс.
«Это может быть особенно полезно в медицинской генетике, чтобы отделить истинные связи между генетическими областями и болезнями от ложных связей, возникающих из нашей общей истории предков».
Это исследование было опубликовано в Science .