InScience

Обширный анализ научной литературы показал, что каждая седьмая аннотация по биомедицинским исследованиям, опубликованным в 2024 году, была написана с помощью нейросетей. Более 200 тысяч аннотаций из 1,5 миллиона, которые были проиндексированы в PubMed, содержали характерные слова: например, heighten («усиливать»), hinder («препятствовать»), unparalleled («несравненный»). Работа опубликована в журнале Science Advances.

Большие языковые модели (LLM, Large Language Model) обучены на текстовых данных, они могут понимать, генерировать и обрабатывать информацию на естественных языках, на которых пишут, говорят, общаются люди. Самая известная LLM — ChatGPT, в России также разрабатывают свои большие языковые модели — GigaChat, YandexGPT. Такие нейросети все больше используют в науке. Общее количество статей, написанных с помощью больших языковых моделей, продолжает расти.

Чтобы оценить долю текстов, написанных с помощью ИИ, ученые исследовали 1,5 миллиона аннотаций: специалисты искали «лишние слова», которые стали появляться чаще после ноября 2022 года — когда ChatGPT стал доступнее. Оказалось, что 454 слова стали встречаться гораздо чаще, чем в другие годы с 2010-го. Некоторые из них были распространенными: findings («полученные результаты»), crucial («решающий») и potential («потенциальный»). Другие же встречались в аннотациях до 2022 года редко: delves («вникает») и showcasing («демонстрация»). Также встречались совсем избыточные слова: heighten («усиливать»), hinder («препятствовать»), unparalleled («несравненный») и invaluable («бесценный»).

В некоторых регионах использование нейросетей особенно высокое: например, в Китае и Южной Корее признаки применения ИИ были обнаружены в одной аннотации статей по биоинформатике из пяти.

Ученые отмечают: изменения в научном лексиконе — это нормально, особенно связанные с масштабными событиями в мире (например, с пандемией коронавирусной инфекции). Однако после появления ChatGPT эти изменения произошли слишком быстро, и это подозрительно.

При этом ученые отмечают, что некоторые характерные для ИИ слова и фразы к концу 2024 года стали встречаться реже: например, delves («вникает»). Это может быть связано с тем, что появились инструменты, которые определяют применение в тексте нейросети из-за использования таких слов.

Также ученые обращают внимание, что пока что исследования применения ИИ в научных статьях (в том числе это) не могут определить, как именно использовался искусственный интеллект. Возможно, авторы с помощью нейросети корректировали свой текст, делали его более читабельным, использовали ИИ для помощи в переводе, а возможно — создавали большие фрагменты текста и не контролировали то, что делает нейросеть.

Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.

Тэги

Поиск

Подписывайся

Последние новости