InScience

DC Studio / Freepik

С развитием искусственного интеллекта (ИИ) интернет-боты получили новые задачи. Теперь они массово скачивают контент с научных сайтов для обучения ИИ и построения новых генеративных моделей. Это перегружает серверы и мешает стабильной работе сайтов журналов, баз данных и других ресурсов, не оставляя настоящему пользователю возможности зайти на сайт. Ученые продолжают поиск решения, которое поможет защитить их ресурсы, сообщает Nature.

Интернет-боты существуют уже несколько десятилетий и несут в себе полезные функции — например, в Google и других поисковых системах они сканируют миллионы веб-страниц для извлечения из них необходимого контента. Развитие генеративного искусственного интеллекта (ИИ) привело к увеличению количества ботов, и многие из них только ухудшают работу сайтов.

Так, в феврале этого года онлайн-хранилище изображений DiscoverLife, содержащее почти три миллиона фотографий, начало получать миллионы просмотров на своем сайте каждый день — намного больше обычного. Временами всплеск трафика был настолько высок, что замедлял работу сайта и не давал возможность пользователям посетить его. Причина — в интернет-ботах, большая часть трафика которых поступает с анонимных IP-адресов. Их внезапный рост заставил владельцев сайтов заподозрить, что боты собирают данные для обучения нейросетей. Они перегружают серверы и создают проблемы для настоящих пользователей.

Научные сайты стали главной мишенью ИИ-ботов из-за высокого содержания свежего или релевантного контента, который очень ценен для разработчиков искусственного интеллекта. Такая нагрузка создает проблему для сайтов: например, издательство медицинских журналов BMJ зафиксировало, что трафик ботов на его сайты превышает трафик реальных людей, что привело к перегрузке серверов и проблемам с посещением страниц, как и у DiscoverLife.

По данным Конфедерации репозиториев открытого доступа (COAR), более 90% из 66 опрошенных администраторов научных хранилищ столкнулись с ботами, которые массово скачивают данные. Примерно две трети респондентов отметили, что из-за этого сайты работали со сбоями. Особенно пострадали небольшие организации — часто у них не хватает ресурсов для блокировки ботов и уменьшения количества сбоев.

По словам экспертов, ИИ-ботов стало больше из-за открытия, которое произошло с выпуском китайской нейросети DeepSeek. Ее разработчики показали, что на создание программы не требуется много серверов и денег и обучить мощный ИИ можно дешевле — если есть подходящие данные. Это и спровоцировало новую волну ботов.

Сейчас владельцы научных сайтов стараются бороться с проблемой. Так, издательство Wiley требует от разработчиков ИИ запрашивать разрешение перед скачиванием контента. Некоторые программы могут встроить в код веб-сайта файл, который сообщает ботам, какие разделы сайта можно просматривать, а какие нет, однако боты могут проигнорировать инструкции. Компании Cloudflare и PSI способны составлять списки «хороших» и «плохих» ботов для их своевременной блокировки на сайтах, но многие из новых программ с ИИ не идентифицируются однозначно. Существующие меры пока не могут предотвратить все нежелательные действия по использованию научных страниц.

«Что нам действительно нужно, так это международные соглашения о добросовестном использовании ИИ и уважении к научным ресурсам. В противном случае в дальнейшем у этих инструментов не будет такого ресурса, на котором можно было бы реально тренироваться», — подчеркнул Майкл Орр, зоолог из Государственного музея национальной истории Штутгарта, Германия.

Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.

Тэги

Поиск

Подписывайся

Последние новости