Loading...
Разработчики из России и Германии предложили паралингвистическую систему определения адресата сообщения, которая позволит голосовым помощникам начинать взаимодействовать с людьми даже без обращения по имени. Система будет самостоятельно определять, когда человек обращается к голосовому помощнику, а когда к другому собеседнику. Кроме того, ответы компьютера станут приближенными к человеческой речи за счет более естественного моделирования диалога. Статья исследователей опубликована в журнале Sensors.
Голосовые помощники, или cистемы речевого общения (Spoken Dialogue Systems, SDS), появились пару десятилетий назад. Они стали чрезвычайно распространены в виде «умных» колонок, так как зачастую встраиваются в разнообразные устройства и позволяют бесконтактно голосом управлять практической любой бытовой техникой, например кофеваркой, кондиционером или системой освещения.
Однако во взаимодействии человека и голосового помощника до сих пор остается ряд сложностей. Такие системы не всегда правильно понимают, когда люди хотят воспользоваться виртуальным помощником, а когда адресуют вопрос другому собеседнику. Эта проблема часто возникает при разговорах между несколькими людьми и голосовым помощником, так как пользователи могут также общаться друг с другом во время взаимодействия с компьютерной системой.
Сегодня предпочтителен подход использования помощника с употреблением ключевого слова - «Окей, Google» (для системы Assistant от Google), «Alexa» (для системы Amazon Echo — самая популярная голосовая колонка в мире) или «Алиса» (для голосового помощника от «Яндекса»). К сожалению, этот способ начала диалога часто приводит к некоторому недопониманию между системой и пользователями. Система может не активироваться, когда ключевое слово было сказано, но не было распознано, и пользователь должен повторять его еще раз. Иногда, что еще хуже, система самостоятельно активируется из-за неправильно распознанной фразы пользователя или из-за использования ключевого слова в другом контексте.
Авторы решили создать новую систему, которая сможет отличать речевой запрос, адресованный помощнику, от разговора с другими людьми. Теперь она сможет занимать активную роль в диалоге благодаря самостоятельному определению адресата речевого сообщения пользователя. Для этого система анализирует акустические и лексические характеристики произнесенных фраз, в том числе используя автоматическое распознавание речи.
Коллектив ученых обнаружил и исследовал интересную закономерность: как только люди начинают говорить с виртуальным помощником, они упрощают и приспосабливают свою манеру речи, делая ее более разборчивой, громкой и в целом более легкой для понимания, так как они не воспринимают систему как адекватного собеседника. «Что касается диалогов "человек-машина", люди часто имеют некоторый негативный опыт в своей повседневной жизни. Поэтому они стараются приспосабливаться к ограничениям технических систем. Это приводит к более медленной и разборчивой речи с ограниченным словарным запасом», — отмечает руководитель проекта по гранту Российского научного фонда, главный научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского института информатики и автоматизации РАН Алексей Карпов. Ученые даже обнаружили сходство характеристик речи взрослых людей, обращенной к компьютеру и к маленьким детям, то есть уровень «интеллекта» помощника воспринимается на уровне ребенка.
Известно, что проблемы коммуникации между человеком и машиной в целом сильно зависят от культуры, языка, речевого корпуса и даже от говорящего. Поскольку исследование проходило совместно с учеными из Германии, зависимость акустических моделей исследовали на различных корпусах немецкой речи и проводили серию перекрестных экспериментов.
Записи проходили в обстановке, похожей на жилую комнату, чтобы участники могли чувствовать себя более неформально при общении с системой. Во время каждого эксперимента пользователь решал разные задачи с помощью голосового помощника Amazon Alexa, например, назначал встречи или отвечал на вопросы викторины. Ученые провели эксперименты без использования ключевого слова. Авторы отметили, что общение с голосовым помощником зависело от того, были ли его ответы похожи на ответы человека или нет. По мнению исследователей, диалоги между людьми и общение с ИИ должны становиться все более похожими.
Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.