Нейросети Yandex Cloud научились генерировать аудио с уникальным голосом по одной фразе

Раньше для создания нового голоса в синтезе речи нужны были часы его записей в студии и недели обучения ML-модели.

Облачная платформа Yandex Cloud представила новый сервис для синтеза речи Brand Voice Call Center. С помощью технологии компании смогут практически в режиме реального времени создавать уникальные голоса для виртуальных операторов колл-центра. При этом “робота” можно будет научить, например, обращаться к клиентам по именам или согласовывать адреса и названия товаров в заказе. Это позволит бизнесу персонализировать и оживить общение в голосовых каналах. Brand Voice Call Center уже доступен для компаний и предоставляется по запросу.

Алгоритм обрабатывает один аудиошаблон и на его основе синтезирует сотни таких же фраз, но при этом по скрипту может менять в них отдельные слова. При этом синтезированная речь в Brand Voice Call Center звучит естественно и передает все детали речи живого человека из шаблона: эмоции, интонации, изменения громкости. В качестве шаблонов компании могут использовать фрагменты телефонных записей реальных операторов своих колл-центров. Это первый подобный сервис на русском языке, выпущенный для коммерческого использования.

Для обучения Brand Voice Call Center специалисты Yandex Cloud использовали датасет с тысячами часов записей различных дикторов на русском языке из открытого доступа. Подобный опыт позволяет работать практически с любым голосом без предварительной подготовки. Чтобы речь звучала более естественно, для обучения моделей в сервисе использовали трансформерную архитектуру. В отличие от других нейронных сетей, трансформеры позволяют обучать ML-модели параллельно на современных видеокартах (GPU) и концентрироваться на важных частях текста, что повышает качество синтеза.

Сейчас сервис уже использует медицинская компания и крупный телеком-оператор, который использует Brand Voice Call Center для своих клиентов и видит рост конверсии на 20% в голосовых каналах продаж с помощью этой технологии. А по данным компании АТС, персонализированная речь помогает в разы повысить лояльность клиентов к виртуальным операторам.

Brand Voice Call Center дополняет линейку продуктов Brand Voice, в которой также представлены Brand Voice Self Service и Brand Voice Premium. Brand Voice Self Service — полнотекстовый синтез голоса, который подойдет для любых коммуникаций с клиентами и озвучки текстового контента. А Brand Voice Premium позволяет создавать уникальные голоса в разных амплуа для маркетинговых, PR-кампаний и голосовых помощников.

Related posts

Игра-кликер от создателей Плюс Сити собрала 1 млн пользователей за неделю 

Рекламодатели Директа первыми на рынке смогут  оптимизировать показы медийной рекламы на рост брендовых метрик

“Мостострой-11” в три раза сократил расходы на SaaS-сервисы благодаря переходу на Яндекс 360 для бизнеса