Loading...
Новая среда уже получила признание в международном исследовательском сообществе. Эксперименты в XLand-MiniGrid уже провели исследователи из Google DeepMind, Калифорнийского университета в Беркли и Оксфордского университета. Научная статья «XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX», описывающая создание среды, была принята на крупнейшую международную конференцию в области искусственного интеллекта — NeurIPS 2024. В этом году конференция пройдет с 10 по 15 декабря в Ванкувере, Канада.
Контекстное обучение с подкреплением (In-Context RL) — это новое направление в ИИ, где модели быстро адаптируются к новым задачам, используя подсказки и контекст, а не требуют длительного обучения с нуля. Это позволяет ИИ эффективно взаимодействовать с окружающей средой и дообучаться на лету. In-Context RL особенно полезен в таких областях, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется мгновенная адаптация к новым условиям.
Ранее исследователи сталкивались с ограничениями в существующих средах для контекстного обучения с подкреплением. Корпоративные среды крупных компаний, таких как Google DeepMind, закрыты для внешних пользователей и используются только для внутренних нужд. Публично доступные инструменты в основном предлагают однотипные и легкие задачи для обучения, что затрудняет разработку и тестирование сложных алгоритмов.
В отличие от уже существующих сред, XLand-MiniGrid находится в открытом доступе и позволяет менять условия обучения прямо в процессе работы. Это упрощает моделирование множества вариативных задач разного уровня сложности, помогает создавать более надежные и адаптивные модели искусственного интеллекта.
Среда создана на базе JAX — технологии для разработки высокопроизводительных программ. В отличие от более медленных аналогов, XLand-MiniGrid выполняет миллиарды операций в секунду.
В таких средах благодаря высокой вариативности и количеству действий можно собирать огромные датасеты. Например, в XLand-MiniGrid собрано 100 млрд примеров действий искусственного интеллекта на 30 тысяч задач. Это позволяет использовать готовые датасеты для обучения, а не проводить его каждый раз с нуля. Всё это способствует новым открытиям в области In-Context RL, снижая затраты и экономя ресурсы на проведение исследований.
«Контекстное обучение с подкреплением является одной из самых многообещающих областей науки в сфере ИИ, потому что позволяет получать агентов, адаптирующихся к новым сценариям на лету на основе внешнего фидбека. Среда, которую мы разработали, позволит значительно ускорить сравнение и создание новых алгоритмов в этой области», — рассказал Владислав Куренков, руководитель научной группы «Адаптивные агенты» Института AIRI.
«Мы пришли в область контекстного обучения с подкреплением, когда она ещё зарождалась, и поэтому не нашли ни одного подходящего инструмента для оценки новых идей. Стало понятно, что это проблема для многих специалистов, а значит должна быть решена одной из первых. Поэтому появился Xland-Minigrid. Наша работа сразу привлекла внимание других исследователей в области, и уже сейчас появляются статьи, где авторы используют среду для проверки своих методов», — прокомментировал Вячеслав Синий, исследователь научной группы AI Alignment, лаборатория исследований искусственного интеллекта T-Bank AI Research.
Материал опубликован в рамках совместного проекта с Национальным центром развития искусственного интеллекта. Подробнее о развитии ИИ в России — на сайте ai.gov.ru.
Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.