Loading...
Для создания сервиса авторы использовали модель распознавания Vosk, а также нейросеть на TensorFlow. Она обучена на 5 гигабайтах русскоязычных текстов. По мере обучения база обновляется новыми языковыми нормами. Также планируется релиз английской версии, которая будет включать распознавание с помощью новой нейросети, обученной с помощью 50 гигабайт текста.
Сервис может быть полезен журналистам, копирайтерам, писателям — они смогут сэкономить время и силы, не тратя несколько часов на «ручную» расшифровку. Приложение поддерживает многие распространенные аудиоформаты: mp3, flac, ogg, mp4, wav, mov и другие. Оно может распознавать даже беглую речь, специфическую лексику и термины, а затем дословно переносить их в текстовый вид за короткое время. Результат расшифровки можно скачать в формате docx или скопировать из приложения.
«В настоящий момент мы прорабатываем интеграцию с Zoom для предоставления субтитров в реальном времени и подключения облачного хранилища для выгрузки записей напрямую в приложение. На интенсиве мы хотим получить новые контакты для сотрудничества и возможных интеграций и развить с помощью экспертов технологическую часть проекта», — рассказал Владислав Беспалов, руководитель проекта.
«AI Секретарь» уже доступен для пользователей в веб-версии и в виде приложений в App Store и Google Play. Авторы намерены монетизировать свою разработку после «Архипелага», когда улучшат качество текстов до максимума — до тех пор приложение будет оставаться бесплатным.
Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.