Loading...

kuttelwascher / Pixabay

Российские разработчики создали приложение «AI Секретарь», которое способно с высокой точностью расшифровывать аудиозаписи длиной до нескольких минут. Скорость расшифровки не влияет на качество текста, орфография и пунктуация соответствуют всем нормам русского языка. Проект будет представлен на интенсиве «Архипелаг 2121» в Великом Новгороде, сообщает пресс-служба Национальной технологической инициативы.

Для создания сервиса авторы использовали модель распознавания Vosk, а также нейросеть на TensorFlow. Она обучена на 5 гигабайтах русскоязычных текстов. По мере обучения база обновляется новыми языковыми нормами. Также планируется релиз английской версии, которая будет включать распознавание с помощью новой нейросети, обученной с помощью 50 гигабайт текста.

Сервис может быть полезен журналистам, копирайтерам, писателям — они смогут сэкономить время и силы, не тратя несколько часов на «ручную» расшифровку. Приложение поддерживает многие распространенные аудиоформаты: mp3, flac, ogg, mp4, wav, mov и другие. Оно может распознавать даже беглую речь, специфическую лексику и термины, а затем дословно переносить их в текстовый вид за короткое время. Результат расшифровки можно скачать в формате docx или скопировать из приложения.

«В настоящий момент мы прорабатываем интеграцию с Zoom для предоставления субтитров в реальном времени и подключения облачного хранилища для выгрузки записей напрямую в приложение. На интенсиве мы хотим получить новые контакты для сотрудничества и возможных интеграций и развить с помощью экспертов технологическую часть проекта», — рассказал Владислав Беспалов, руководитель проекта.

«AI Секретарь» уже доступен для пользователей в веб-версии и в виде приложений в App Store и Google Play. Авторы намерены монетизировать свою разработку после «Архипелага», когда улучшат качество текстов до максимума — до тех пор приложение будет оставаться бесплатным.


Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.