Loading...
Почти 20 лет назад проект Human Genome Project закончился расшифровкой человеческого генома — прочитали всю последовательность «букв» в ДНК. Это заняло целых 13 лет, но все же геном остался с пробелами. Мало кто отнесся к ним серьезно — 151 миллион пар оснований без четкой функции отнесли к остальной некодирующей белки ДНК («мусорной»). Эти 8% генома включают многочисленные гены и повторяющиеся участки, а по размеру сопоставимы с целой хромосомой. Повторы — это главные враги секвенаторов, машин для прочитывания последовательности ДНК. Они не входят в состав генов, которые содержат инструкции для синтеза белков. Именно к последним в то время было приковано практически все внимание исследователей, ведь дефектные белки часто становятся причинами болезней.
Повторы же никаких инструкций по сборке белков не несут. Их часто находят в районе теломер и центромер. Оба понятия обозначают участки хромосом. Теломеры — это их концы, от длины теломер зависит, сколько раз за свою жизнь клетка сможет поделиться. А центромеры — это части хромосом, где соединяются их половинки (хроматиды). При делении клетки хроматиды расходятся, и от «качества» центромер зависит, насколько успешно этот процесс закончится. Со временем накапливалось все больше данных о том, что эти участки ДНК чрезвычайно важны и никогда не были «мусором».
Окончательно доказали это более 100 ученых — участников консорциума Telomere to Telomere (T2T). Команда из нескольких исследовательских центров в разных странах, вооружившись новыми технологиями секвенирования, алгоритмами и методами для обработки данных генома, получила первую последовательность ДНК, прочитанную полностью, без пробелов. Новый геном, названный T2T-CHM13, добавляет почти 200 миллионов пар оснований, включая 99 генов, которые, вероятно, кодируют белки, и почти 2000 генов-кандидатов, которые нуждаются в дальнейшем изучении. Короткие плечи пяти хромосом (13, 14, 15, 21 и 22) до этого момента состояли в основном из длинных цепочек букв N, обозначающих непрочитанный нуклеотид. Теперь же эти пробелы заполнятся. Последовательность T2T дополнит стандартный геном человека, прочитанный 20 лет назад, — Consortium build 38 (GRCh38). Он используется учеными в качестве «эталонного». Лидеры этого открытия — Адам Филиппи, Карен Мига и Эван Эйхлер, участвовавший и в Human Genome Project.
Как прочитать геном и сделать открытие по Zoom
Человеческий геном состоит из чуть более шести миллиардов отдельных букв ДНК — примерно столько же их у других приматов. Распределена ДНК человека по 23 парам хромосом. Молекула, которая отвечает за все особенности каждого из живых организмов, состоит из всего четырех букв (нуклеотидов) — А, Т, Г, Ц. Чтобы прочитать геном, сначала необходимо нарезать всю ДНК на части длиной от сотен до тысяч букв. Затем машины-секвенаторы считывают отдельные буквы в каждой части, а ученые пытаются собрать части в правильном порядке.
За 20 лет стоимость этого процесса сильно снизилась, а скорость и эффективность — выросли. Важнейший фактор — длина считывающей последовательности. Чем больше частей мозаики имеется, тем проще ее собирать. Это также можно сравнить с восстановлением изрезанной газеты: чем длиннее будут попадаться фрагменты слов, тем проще из них составить предложения.
Еще одна проблема заключается в том, что некоторые области генома повторяют одни и те же буквы снова и снова. Найти им место сложнее всего, они казались бессмысленными.
Другая загвоздка — большинство клеток содержат парный набор хромосом, по половине от отца и от матери. Когда исследователи пытаются собрать полную последовательность ДНК, фрагменты от каждого родителя могут смешиваться вместе, делая невозможной точную сборку. Решение нашлось в клеточных линиях, которые изучает специалист по репродуктивной генетике Питтсбургского университета Урваши Сурти. Из-за редкого сбоя в нормальном развитии в клетках остается две копии ДНК отца и ни одной копии ДНК матери.
С первыми двумя проблемами справились компании Oxford Nanopore Technologies и Pacific Biosciences. В 2017 году была выпущена новая машина Nanopore, которая могла точно считывать миллион букв ДНК за раз. Тогда же был создан проект T2T, а вскоре Pacific Biosciences представила новую машину для секвенирования, которая генерировала длинные считывания с точностью более 99%. Два набора данных секвенирования от двух этих машин позволили исследователям собрать головоломку, не упустив и повторяющиеся регионы. Митен Джейн и другие исследователи Института геномики Калифорнийского университета в Южной Каролине помогли создать протокол сверхдлинного (более 100 тысяч пар оснований) прочтения.
К лету 2020 года T2T собрал две хромосомы. Еще 21 хромосому расшифровали, работая удаленно через Zoom и Slack из-за пандемии. Переломный момент наступил, когда команда попыталась собрать самые сложные участки генома — повторы ДНК в центромерах. Исследователи поняли, что алгоритмы сборки частей не справляются с этими повторами. А для человеческого глаза и мозга это не было проблемой — на экране компьютера ученые увидели, где различные повторяющиеся последовательности «сплелись» вместе. Расплетали их вручную, и к концу лета команда секвенировала каждую хромосому.
Если хотя бы одна или несколько пар оснований ошибочны, это может иметь серьезные последствия для общей точности геномной последовательности. «Подозрительные» повторы проверял и корректировал разработанный Эрихом Джарвисом (Университет Рокфеллера) и Джулио Форменти алгоритм Merfin. Джарвис возглавил также проект Vertebrate Genomes Project, в результате которого уже получили 25 референсных геномов позвоночных. «По сравнению с методами, которые использовались 20 лет назад, современная геномика предлагает гораздо более точные. Мы можем получать сверхдлинные чтения, точность которых составляет 99,9%. Улучшились инструменты сборки генома и стали мощнее алгоритмы, которые отличают похожие кусочки головоломки друг от друга», — рассказывает Джарвис.
Как доказал Human Genome Project, мало прочитать геном — еще больше работы нужно, чтобы понять биологический смысл каждой его части. Этим биологи и биоинформатики занимались последние 20 лет. Команда T2T же не только прочитала ДНК, но и занялась таким расследованием. Так, они обнаружили неожиданно высокий уровень генетической изменчивости в центромерах и других областях хромосом. Этот совершенно новый набор различий в ДНК может иметь какое-то функциональное значение для процесса деления клеток, считают лидеры проекта.
«Центромеры играют решающую роль в правильном разделении хромосом во время клеточного деления, и мы уже давно знаем, что нарушение регулирования их расхождения встречается при всех видах заболеваний человека. Но мы никогда не могли изучить их на уровне нуклеотидов», — рассказывает Карен Мига.
Другое исследование, проведенное Николасом Альтемозе (Университет Беркли, Калифорния) включало в себя поиск и изучение областей хромосом, где белки соединяются с ДНК. В результате такого взаимодействия, например, регулируется активность генов. Группа также обнаружила серьезные различия как в последовательности, так и в количестве копий повторов ДНК рядом с центромерами. Для этого они сравнили ДНК этих участков у 1600 человек различного происхождения, что позволит отследить эволюцию нашего вида при расселении по планете.
«Без белков ДНК — ничто, это набор инструкций, и никто не может их прочитать, если рядом нет белков. Вдобавок белки же восстанавливают ДНК, удваивают ее и так далее. Взаимодействия белок — ДНК — это те точки, где происходят все действия по регуляции генома, и возможность картировать, где определенные белки связываются с геномом, действительно важна для понимания их функции», — говорит Альтемозе.
Сотни тысяч других замен нуклеотидов (мутаций) в старой версии, вероятно, могли быть неверно истолкованы из-за недостающих 8% — теперь появился шанс это исправить. Многие из них находятся в генах, связанных с тем или иным заболеванием.
Результаты T2T помогут, возможно, объяснить быструю эволюцию нашего вида. Новая версия генома показывает, что некоторые гены, связанные с приобретением большого мозга, сильно различаются. У одного человека может быть 10 копий определенного гена, а у других может быть только 1 или 2. Эта вариация может вызвать проблемы во время оплодотворения, когда хромосомы от матери и отца выстраиваются в линию и меняются местами. Такое событие может привести к взрыву новых мутаций, то есть повторы могут быть источником быстрых эволюционных изменений. Митчелл Р. Фоллгер (Медицинская школа Университета Вашингтона) совместно с Эваном Эйхлером показали, что эволюция добавила в геном человеческого вида около 180 генов, кодирующих белки. Лаборатория Эйхлера также сравнила геном человека и других приматов. В результате они реконструировали эволюцию некоторых значимых генов, а также некоторых дублированных генов, специфичных для человека и представляющих собой сегментарные дупликации. Именно эти регионы и могли стать участками для внезапного рождения новых генов, связанных с образованием большего количества нейронов в развивающемся мозге и связями между синапсами в лобной коре — части мозга, ответственной за некоторые из высокоуровневых процессов мышления, рассуждения, логики, и за языковые функции. Авторы исследования особо выделяют семейство генов TBC1D3 и ген SMN, мутации в котором связаны с нервно-мышечными расстройствами, в том числе спинальной мышечной атрофией. Последний поэтому рассматривают как перспективную мишень для генной терапии.
Успешное прочитывание и сборка одного генома — это далеко не финал. Члены консорциума T2T уже работают над секвенированием генома с различными хромосомами, унаследованными от каждого родителя. Следующий шаг — собрать геномы 350 человек со всего мира, чтобы создать новый референс, который отразит разнообразие человеческих популяций.
«Цель состоит в том, чтобы создать как можно более полный геном человека, представляющий гораздо больше человеческого разнообразия», — объясняет Джарвис, один из руководителей пангеномного проекта.
Стандартный эталонный геном (GRCh38) также не представляет одного человека, он был собран от нескольких доноров. Но объединение их в одну линейную последовательность создало в ней искусственные структуры. Проект Human Pangenome (HRPC) исправит это и позволит узнать больше о том, как наши предки эволюционировали в Африке.
Мы станем свидетелями того, как ученые вместо нечеткой картинки получат кристально чистое изображение благодаря собранной без пробелов мозаике. Связанные с неправильным клеточным делением болезни — рак, хромосомные болезни (синдром Дауна) — станут понятнее, как и генетические факторы, влияющие на полигенные заболевания. Значит, в будущем нас ждет еще более эффективное их лечение и предотвращение, а список забытых болезней, несомненно, пополнится.
Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.