Loading...

Нейроарт на тему «регуляция генома и человек». Источник: Иван Кулаковский (сгенерировано с помощью StableDiffusion)

Ученые сравнили алгоритмы машинного обучения разной сложности на задаче предсказания активности регуляторных последовательностей ДНК. Выяснилось, что при тщательной настройке сравнительно простые методы глубокого обучения превосходят даже модные сейчас «трансформеры», лежащие в основе языковых моделей и чат-бота ChatGPT. Такой результат говорит о смене господствующей парадигмы по усложнению алгоритмов машинного обучения и открывает новые возможности для применения небольших нейросетей в решении практических задач генетики и биомедицины. Результаты исследования опубликованы в журнале Nature Biotechnology.

Работа большинства генов контролируется транскрипционными факторами — белками, взаимодействующими с управляющими участками ДНК. Например, в клетках человека работает около полутора тысяч разновидностей транскрипционных факторов (из порядка 20 тысяч белков, выполняющих различные клеточные функции). Это одна из многих причин, почему так сложно определить, что именно будет происходить с конкретным геном при изменениях в регуляторной ДНК. Один из ключей к решению этой задачи дают нейронные сети, но остаются пробелы в понимании их применимости и проблемы в подборе алгоритмов обучения, наилучшим образом подходящих для предсказания активности генов по последовательности ДНК управляющих (регуляторных) районов.

Исследователи из Института общей генетики имени Н. И. Вавилова РАН (Москва), Московского государственного университета имени М. В. Ломоносова (Москва), Института белка РАН (Пущино) совместно с зарубежными коллегами протестировали множество нейросетей разной сложности, дав им задачу предсказать активность большого набора разных последовательностей ДНК. В эксперименте участвовало несколько десятков команд-разработчиков со всего мира (в том числе команда авторов исследования).

Ученые из разных команд тренировали нейронные сети сопоставлять последовательности ДНК с уровнями активности соответствующих им генов. Материалом для обучения послужила библиотека из 12 миллионов последовательностей ДНК, активность которых измерили экспериментально. Затем качество работы предложенных моделей тщательно проверяли на отдельном наборе из 70 тысяч фрагментов ДНК. Предсказанные алгоритмами значения активности разработчики сравнили с экспериментально полученными данными.

Наилучший результат показала разработанная российскими соавторами статьи нейронная сеть LegNet. Она относится к классу сверточных нейронных сетей, успешно применяемых на современных устройствах для анализа изображений и видео. Авторы показали, что такие модели высокоадаптивны и могут быть гибко донастроены под конкретную задачу. Второе и третье место в конкурсе заняли, соответственно, рекуррентная нейронная сеть (такие модели используются для анализа аудиозаписей) и модель-трансформер (используются для работы с текстовыми данными и генерации сообщений). Несмотря на их значительную популярность, такие сети справляются с рядом задач хуже, чем сверточные нейросети. Как оказалось, это верно и для моделирования коротких регуляторных последовательностей ДНК и их влияния на работу генов.

После подведения итогов конкурса командам-победителям предстояло адаптировать свои решения для создания общей нейросетевой платформы для изучения регуляторных последовательностей ДНК. За почти два года совместной работы научные партнеры выбрали наилучшую возможную архитектуру нейросети, которая включила в себя фактически все полезные находки из решений исходного конкурса.

«Исследование показало, что более простые архитектуры нейронных сетей с меньшим количеством параметров при хорошей оптимизации могут быть эффективнее новейших более сложных алгоритмов. Это бросает вызов текущей тенденции по чрезмерному усложнению нейронных сетей», — рассказывает Дмитрий Пензар, научный сотрудник института AIRI и преподаватель факультета биоинженерии и биоинформатики МГУ.

«Это исследование — результат многолетней совместной работы большого международного коллектива — задает стандарт и предоставляет технологическую платформу по использованию нейросетей для моделирования коротких регуляторных участков генов. В перспективе эти разработки дают возможность решать практические задачи генетики и биомедицины: от рационального дизайна регуляторных районов и контроля побочных эффектов генной терапии до оптимизации эффективности РНК-вакцин», — заключает Иван Кулаковский, доктор биологических наук, профессор Учебного центра молекулярной биологии Института белка РАН.

Материал опубликован в рамках совместного проекта с Национальным центром развития искусственного интеллекта. Подробнее о развитии ИИ в России — на сайте ai.gov.ru.


Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.