Yandex SpeechKit научился синтезировать и распознавать речь на узбекском языке

ОБлачная платформа Yandex Cloud разработала нейросети, которые могут распознавать и воспроизводить речь на узбекском языке. Этот язык теперь доступен компаниям в России и Узбекистане, которые могут использовать его в сервисе Yandex SpeechKit для создания голосовых помощников, автоматизации колл-центров и речевой аналитики.

Индивидуальная настройка синтеза в SpeechKit

Модели синтеза речи были обучены на записи голоса реального диктора. Они могут синтезировать речь не только из текста, но и из фонемной записи, которая содержит все особенности звуков в словах. Это позволяет клиентам корректировать произношение отдельных слов, таких как сложные фамилии, названия товаров и заимствованные выражения. Для этого им нужно будет указать в тексте фонемный разбор нужного слова с помощью специального синтаксиса.

Большие датасеты для распознавания речи

Так же, как и в случае с синтезом речи, нейросети для распознавания учатся на примерах. Для обучения специалисты Yandex Cloud собрали датасет с тысячами часов аудио и их расшифровками, включая короткие и длинные фразы, а также имена, адреса, даты и числа.

Узбекская латиница

Нейросети для синтеза и распознавания узбекского языка работают с латинским алфавитом, который используется в Узбекистане уже более 20 лет. Алгоритмам пришлось выучить и некоторые звуковые особенности букв, например, буква “X” обозначает твердый [х], а в иностранных словах может произноситься как [кс].

В Узбекистане сейчас активно развиваются сценарии, связанные с искусственным интеллектом, в частности с речевыми технологиями. По оценке одного из наших партнеров, объем рынка речевых технологий в Узбекистане может достигать до 395 миллионов минут обработанной речи в год. Появление нового шестнадцатого языка в Yandex SpeechKit – большой шаг для создания новых диалоговых сценариев как для узбекских, так и для российских компаний.

Григорий Атрепьев, директор по продуктам в Yandex Cloud.

Модели доступны на сайте и настраиваются стандартными средствами в API. Ряд компаний, включая Kolesa Group, уже начали использовать синтез и распознавание узбекского языка с помощью Yandex SpeechKit. Технологию также тестируют и интегрируют в свои решения компании-партнеры, включая TargetAI, JustAI, Unistar Digital и Tomoru.

Related posts

ВТБ подключил оплату по универсальному QR-коду в магазинах, поддержав инициативу ЦБ и НСПК

“Мостострой-11” в три раза сократил расходы на SaaS-сервисы благодаря переходу на Яндекс 360 для бизнеса

К 2027 году прогнозируется двукратный объем рынка безопасной разработки ПО