«Яндекс» разработал прототип сервиса на базе нейросети, который в режиме реального времени переводит иностранные ролики на русский язык и озвучивает их. По словам компании, технология не имеет аналогов в мире.
Как устроена программа
Сейчас разработка «Яндекса» способна генерировать русскоязычный закадровый голос только для видео на английском языке. Во время создания сервиса поисковая компания применяла технологии машинного перевода в «Яндекс.Переводчике», биометрию, распознавание и синтез речи.
Новое решение способно определить пол говорящего на видео и подобрать подходящий по звучанию голос. Специальный алгоритм анализирует темп озвучки и корректирует паузы виртуального диктора, ускоряет либо замедляет его речь, чтобы синхронизировать закадровый перевод с видеорядом.
Протестировать сервис можно при помощи «Яндекс.Браузера». Прототип пока способен работать только с роликами из определенного плейлиста, в котором представлены несколько научно-популярных лекций длиной до 20 минут. Разработчики обещают продолжить работу над приложением и предоставить пользователям выбор того, какие видеозаписи переводить.
«Яндекс» нацелен на перевод
Дэвид Талбот, руководитель направления обработки естественного языка в «Яндексе», рассказал, что в интернете есть очень много полезных видеоматериалов, к которым люди не имеют доступа из-за недостаточного знания иностранного языка. Поисковая компания, по мнению разработчика, уже близка к тому, чтобы стереть эту границу. «Мы тоже в начале пути, но у нас уже есть прототип и понимание, куда двигаться дальше», – сообщил он.
Впервые «Яндекс» применил нейросетевые технологии для перевода в 2017 году, когда в сервис «Переводчик» встроил гибридную модель. Авторы проекта к стандартной статистической модели добавили функцию коррекции при помощи искусственного интеллекта. Особенность такого подхода в том, что ИИ не разделяет текст на отдельные слова, а анализирует его содержание целиком, благодаря чему при переводе лучше сохраняется смысл.
Ближайший конкурент
Над похожим решением работают разработчики программы для видеовызовов Zoom. В июне этого года компания приобрела стартап Kites, который создал технологию на базе нейросети для автоматического создания субтитров на разных языках в реальном времени при просмотре роликов. По заверениям авторов проекта, сервис отображает стенограмму еще до того, как выступающий закончит предложение.