Loading...
Продолжая работу с сайтом, вы подтверждаете использование файлов cookies вашего браузера, чтобы гарантировать максимальное удобство, предоставляя персонализированную информацию. Если вы не согласны с тем, чтобы мы использовали данный тип файлов, то вы должны установить соответствующие настройки вашего браузера или не использовать сайт.
Больше информации...
Почти 20 лет назад проект Human Genome Project закончился расшифровкой человеческого генома — прочитали всю последовательность «букв» в ДНК. Это заняло целых 13 лет, но все же геном остался с пробелами. Мало кто отнесся к ним серьезно — 151 миллион пар оснований без четкой функции отнесли к остальной некодирующей белки ДНК («мусорной»). Эти 8% генома включают многочисленные гены и повторяющиеся участки, а по размеру сопоставимы с целой хромосомой. Повторы — это главные враги секвенаторов, машин для прочитывания последовательности ДНК. Они не входят в состав генов, которые содержат инструкции для синтеза белков. Именно к последним в то время было приковано практически все внимание исследователей, ведь дефектные белки часто становятся причинами болезней.
Повторы же никаких инструкций по сборке белков не несут. Их часто находят в районе теломер и центромер. Оба понятия обозначают участки хромосом. Теломеры — это их концы, от длины теломер зависит, сколько раз за свою жизнь клетка сможет поделиться. А центромеры — это части хромосом, где соединяются их половинки (хроматиды). При делении клетки хроматиды расходятся, и от «качества» центромер зависит, насколько успешно этот процесс закончится. Со временем накапливалось все больше данных о том, что эти участки ДНК чрезвычайно важны и никогда не были «мусором».
Окончательно доказали это более 100 ученых — участников консорциума Telomere to Telomere (T2T). Команда из нескольких исследовательских центров в разных странах, вооружившись новыми технологиями секвенирования, алгоритмами и методами для обработки данных генома, получила первую последовательность ДНК, прочитанную полностью, без пробелов. Новый геном, названный T2T-CHM13, добавляет почти 200 миллионов пар оснований, включая 99 генов, которые, вероятно, кодируют белки, и почти 2000 генов-кандидатов, которые нуждаются в дальнейшем изучении. Короткие плечи пяти хромосом (13, 14, 15, 21 и 22) до этого момента состояли в основном из длинных цепочек букв N, обозначающих непрочитанный нуклеотид. Теперь же эти пробелы заполнятся. Последовательность T2T дополнит стандартный геном человека, прочитанный 20 лет назад, — Consortium build 38 (GRCh38). Он используется учеными в качестве «эталонного». Лидеры этого открытия — Адам Филиппи, Карен Мига и Эван Эйхлер, участвовавший и в Human Genome Project.
Как прочитать геном и сделать открытие по Zoom
Человеческий геном состоит из чуть более шести миллиардов отдельных букв ДНК — примерно столько же их у других приматов. Распределена ДНК человека по 23 парам хромосом. Молекула, которая отвечает за все особенности каждого из живых организмов, состоит из всего четырех букв (нуклеотидов) — А, Т, Г, Ц. Чтобы прочитать геном, сначала необходимо нарезать всю ДНК на части длиной от сотен до тысяч букв. Затем машины-секвенаторы считывают отдельные буквы в каждой части, а ученые пытаются собрать части в правильном порядке.
За 20 лет стоимость этого процесса сильно снизилась, а скорость и эффективность — выросли. Важнейший фактор — длина считывающей последовательности. Чем больше частей мозаики имеется, тем проще ее собирать. Это также можно сравнить с восстановлением изрезанной газеты: чем длиннее будут попадаться фрагменты слов, тем проще из них составить предложения.
Еще одна проблема заключается в том, что некоторые области генома повторяют одни и те же буквы снова и снова. Найти им место сложнее всего, они казались бессмысленными.
Другая загвоздка — большинство клеток содержат парный набор хромосом, по половине от отца и от матери. Когда исследователи пытаются собрать полную последовательность ДНК, фрагменты от каждого родителя могут смешиваться вместе, делая невозможной точную сборку. Решение нашлось в клеточных линиях, которые изучает специалист по репродуктивной генетике Питтсбургского университета Урваши Сурти. Из-за редкого сбоя в нормальном развитии в клетках остается две копии ДНК отца и ни одной копии ДНК матери.
С первыми двумя проблемами справились компании Oxford Nanopore Technologies и Pacific Biosciences. В 2017 году была выпущена новая машина Nanopore, которая могла точно считывать миллион букв ДНК за раз. Тогда же был создан проект T2T, а вскоре Pacific Biosciences представила новую машину для секвенирования, которая генерировала длинные считывания с точностью более 99%. Два набора данных секвенирования от двух этих машин позволили исследователям собрать головоломку, не упустив и повторяющиеся регионы. Митен Джейн и другие исследователи Института геномики Калифорнийского университета в Южной Каролине помогли создать протокол сверхдлинного (более 100 тысяч пар оснований) прочтения.
К лету 2020 года T2T собрал две хромосомы. Еще 21 хромосому расшифровали, работая удаленно через Zoom и Slack из-за пандемии. Переломный момент наступил, когда команда попыталась собрать самые сложные участки генома — повторы ДНК в центромерах. Исследователи поняли, что алгоритмы сборки частей не справляются с этими повторами. А для человеческого глаза и мозга это не было проблемой — на экране компьютера ученые увидели, где различные повторяющиеся последовательности «сплелись» вместе. Расплетали их вручную, и к концу лета команда секвенировала каждую хромосому.
Если хотя бы одна или несколько пар оснований ошибочны, это может иметь серьезные последствия для общей точности геномной последовательности. «Подозрительные» повторы проверял и корректировал разработанный Эрихом Джарвисом (Университет Рокфеллера) и Джулио Форменти алгоритм Merfin. Джарвис возглавил также проект Vertebrate Genomes Project, в результате которого уже получили 25 референсных геномов позвоночных. «По сравнению с методами, которые использовались 20 лет назад, современная геномика предлагает гораздо более точные. Мы можем получать сверхдлинные чтения, точность которых составляет 99,9%. Улучшились инструменты сборки генома и стали мощнее алгоритмы, которые отличают похожие кусочки головоломки друг от друга», — рассказывает Джарвис.
Как доказал Human Genome Project, мало прочитать геном — еще больше работы нужно, чтобы понять биологический смысл каждой его части. Этим биологи и биоинформатики занимались последние 20 лет. Команда T2T же не только прочитала ДНК, но и занялась таким расследованием. Так, они обнаружили неожиданно высокий уровень генетической изменчивости в центромерах и других областях хромосом. Этот совершенно новый набор различий в ДНК может иметь какое-то функциональное значение для процесса деления клеток, считают лидеры проекта.
«Центромеры играют решающую роль в правильном разделении хромосом во время клеточного деления, и мы уже давно знаем, что нарушение регулирования их расхождения встречается при всех видах заболеваний человека. Но мы никогда не могли изучить их на уровне нуклеотидов», — рассказывает Карен Мига.
Другое исследование, проведенное Николасом Альтемозе (Университет Беркли, Калифорния) включало в себя поиск и изучение областей хромосом, где белки соединяются с ДНК. В результате такого взаимодействия, например, регулируется активность генов. Группа также обнаружила серьезные различия как в последовательности, так и в количестве копий повторов ДНК рядом с центромерами. Для этого они сравнили ДНК этих участков у 1600 человек различного происхождения, что позволит отследить эволюцию нашего вида при расселении по планете.
«Без белков ДНК — ничто, это набор инструкций, и никто не может их прочитать, если рядом нет белков. Вдобавок белки же восстанавливают ДНК, удваивают ее и так далее. Взаимодействия белок — ДНК — это те точки, где происходят все действия по регуляции генома, и возможность картировать, где определенные белки связываются с геномом, действительно важна для понимания их функции», — говорит Альтемозе.
Сотни тысяч других замен нуклеотидов (мутаций) в старой версии, вероятно, могли быть неверно истолкованы из-за недостающих 8% — теперь появился шанс это исправить. Многие из них находятся в генах, связанных с тем или иным заболеванием.
Результаты T2T помогут, возможно, объяснить быструю эволюцию нашего вида. Новая версия генома показывает, что некоторые гены, связанные с приобретением большого мозга, сильно различаются. У одного человека может быть 10 копий определенного гена, а у других может быть только 1 или 2. Эта вариация может вызвать проблемы во время оплодотворения, когда хромосомы от матери и отца выстраиваются в линию и меняются местами. Такое событие может привести к взрыву новых мутаций, то есть повторы могут быть источником быстрых эволюционных изменений. Митчелл Р. Фоллгер (Медицинская школа Университета Вашингтона) совместно с Эваном Эйхлером показали, что эволюция добавила в геном человеческого вида около 180 генов, кодирующих белки. Лаборатория Эйхлера также сравнила геном человека и других приматов. В результате они реконструировали эволюцию некоторых значимых генов, а также некоторых дублированных генов, специфичных для человека и представляющих собой сегментарные дупликации. Именно эти регионы и могли стать участками для внезапного рождения новых генов, связанных с образованием большего количества нейронов в развивающемся мозге и связями между синапсами в лобной коре — части мозга, ответственной за некоторые из высокоуровневых процессов мышления, рассуждения, логики, и за языковые функции. Авторы исследования особо выделяют семейство генов TBC1D3 и ген SMN, мутации в котором связаны с нервно-мышечными расстройствами, в том числе спинальной мышечной атрофией. Последний поэтому рассматривают как перспективную мишень для генной терапии.
Успешное прочитывание и сборка одного генома — это далеко не финал. Члены консорциума T2T уже работают над секвенированием генома с различными хромосомами, унаследованными от каждого родителя. Следующий шаг — собрать геномы 350 человек со всего мира, чтобы создать новый референс, который отразит разнообразие человеческих популяций.
«Цель состоит в том, чтобы создать как можно более полный геном человека, представляющий гораздо больше человеческого разнообразия», — объясняет Джарвис, один из руководителей пангеномного проекта.
Стандартный эталонный геном (GRCh38) также не представляет одного человека, он был собран от нескольких доноров. Но объединение их в одну линейную последовательность создало в ней искусственные структуры. Проект Human Pangenome (HRPC) исправит это и позволит узнать больше о том, как наши предки эволюционировали в Африке.
Мы станем свидетелями того, как ученые вместо нечеткой картинки получат кристально чистое изображение благодаря собранной без пробелов мозаике. Связанные с неправильным клеточным делением болезни — рак, хромосомные болезни (синдром Дауна) — станут понятнее, как и генетические факторы, влияющие на полигенные заболевания. Значит, в будущем нас ждет еще более эффективное их лечение и предотвращение, а список забытых болезней, несомненно, пополнится.
Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.