Loading...
За последние несколько десятилетий генетики прочитали и расшифровали более 3,7 миллиардов последовательностей (столько было размещено в базе Genbank к 2024 году). 500 тысяч из них — это геномы бактерий. Для анализа этих огромных накопленных массивов данных нужно разрабатывать новые математические методы. Один из подходов — это поиск диспергированных повторов, то есть одинаковых фрагментов последовательности нуклеотидов — «звеньев» в цепи ДНК. В отличие от тандемных повторов, которые идут подряд друг за другом, диспергированные возникают на некотором расстоянии и могут быть сильно «разбросаны» по геному. Длина таких фрагментов — от нескольких сотен до тысяч нуклеотидов. Биоинформатик из ФИЦ Биотехнологии РАН изучил такие повторы в 12 бактериальных геномах при помощи нового разработанного математического метода. Большая часть найденных дисперсных повторов приходится на известные гены бактерий, и они занимают примерно 30% генома.
Недавно профессор Евгений Коротков и его коллеги создали новый алгоритм, работающий на основе итеративного процесса. Такой подход позволяет генерировать варианты решения математической задачи по частям, объединять и совершенствовать их на каждом этапе (итерации), что похоже на метод проб и ошибок. В предыдущей публикации ученые описали, как протестировали новый метод на геномах бактерий из 42 родов и обнаружили в каждом из них как минимум одну группу таких повторов длиной в среднем 500 нуклеотидов, которая занимает от 17 до 72% генома.
Проанализировав в новой работе еще 12 геномов бактерий, ученый доказал, что в геноме E. coli (кишечной палочки) удалось найти 7873 повтора длиной около 500 оснований. Кроме того, выяснилось, что 3166 пар этих повторов на двух противоположных цепях ДНК пересекаются между собой. Те же выводы были подтверждены и на геномах бактерий из 11 других родов.
Было обнаружено, что районы пересечений найденных диспергированных повторов в геномах бактерий содержат реверсно-комплементарные кодоны и найденную зеркальность дисперсных повторов можно условно разделить на два класса. Первый класс содержит основания G, A/T и C в первом, втором и третьем основании кодона. В этих позициях число нуклеотидов значительно больше, чем это можно было бы ожидать для случайных последовательностей. В этот класс входят 10 геномов из исследованных в данной работе, включая геном E. coli.
Во втором классе в первой, второй и третьей позиции кодона содержится значительно больше G, C, A/T чем это можно было бы ожидать для случайных последовательностей. Если район пересечения дисперсных повторов перевернуть на 180 градусов и перекодировать основания на комплементарные, то в первом классе обогащенность первой, второй и третьей позиции кодонов основаниями G, A/T, C сохраняется. Во втором классе происходит тоже, но с циклическим матрицы сдвигом на одно основание.
«Пока что мы не знаем, зачем такие повторы могут быть нужны бактерии и откуда они берутся и в чем смысл найденной зеркальной симметрии. Биологическая роль этого явления — это очень интересный вопрос, на который нам только предстоит найти ответ. Во-первых, найденная зеркальная симметрия соответствует второму правилу Чаргаффа, которое определяет соотношение разных видов парных нуклеотидов на одной спирали ДНК. Выяснилось, что для кодонов в найденных дисперсных повторах эта закономерность тоже работает — это становится возможным из-за большого количества классических инверсий ДНК, при которых фрагмент ДНК переворачивался задом наперед или перемещался в другую часть последовательности. В результате таких мутаций может возникать зеркальная симметрия триплетов оснований. Если это действительно так, то места "встречи" таких повторов на двух парных цепях ДНК — это места, где инверсии ДНК возникали особенно часто. Другая гипотеза состоит в том, что эти повторы помогают геному бактерии свернуться в правильную трехмерную структуру, которая называется нуклеотидом», — пояснил Евгений Коротков.
Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.