Теперь нейросети Яндекс Браузера могут переводить видео с китайского и автоматически накладывать русскую озвучку. Для этого понадобилось учесть множество особенностей сложного восточного языка. Технология уже работает на YouTube, а чуть позже появится поддержка популярной китайской видеоплатформы Bilibili.
Уникальный датасет
Нейросети учатся на примерах, и они должны соответствовать определённым критериям. Готовых решений не было, поэтому разработчики Яндекса с нуля собрали собственный датасет. С помощью специального алгоритма они обработали 1,5 миллиона видео и выбрали 100 тысяч с качественными субтитрами на севернокитайском языке, которым владеет более миллиарда человек. Соответствие аудио и субтитров так важно, потому что именно по ним нейросеть учится понимать речь.
Понимание письменности
Превращение речи в текст — первый этап перевода, и для этого нейросетям браузера пришлось выучить тысячи иероглифов. Каждый из них читается как слог. Чтобы нейросеть научилась их понимать, весь необходимый для работы с китайским словарь разработчики закодировали в виде 10 000 токенов. Для сравнения, пять европейских языков, которые Яндекс Браузер научился переводить раньше, уместились в библиотеку на 5000 токенов. Один токен равен одному слогу или регулярно использующемуся сочетанию двух слогов. Одновременно с этим нейросеть обучили делить сплошной поток иероглифов на смысловые отрезки, чтобы точнее синхронизировать перевод с исходной речью и сделать его более качественным.
Тоны и контекст
С самой сложной особенностью китайского, на понимание которой у людей уходят годы, нейросети браузера справились всего за месяц. Именно столько им потребовалось на изучение четырёх тонов, определяющих смысл сказанного. Тон — это мелодический рисунок голоса. Один и тот же слог, произнесённый с повышением или понижением голоса, может означать совершенно разные вещи. А ещё в китайском много омофонов — слов, которые звучат одинаково, но пишутся по-разному и обладают разным значением. Чтобы различать их, нейросети Яндекс Браузера умеют учитывать контекст.
Автоматический голосовой перевод китайского — большой шаг вперёд на пути к полному преодолению языкового барьера в интернете. Яндекс Браузер открывает людям огромное количество уникального контента: от полезной информации о новых гаджетах и национальной кухне до персональных блогов, связанных с сотнями других тем. Кроме того, теперь у нас есть достаточная технологическая база для работы с другими сложными языками. Например, корейским и японским
Илья Шибанов, руководитель проектного офиса разработки Яндекс Браузера
Яндекс Браузер сам предлагает перевести видео с китайского на YouTube сразу после того, как пользователь его откроет. Нужно просто нажать на кнопку «Перевести видео». Подробный рассказ об особенностях технологии опубликован в блоге компании на Хабре.