Исследователи синтезировали выразительную устную речь

10.09.2021      34177

Голосовые помощники и автопереводчики становятся все точнее, но синтетическое воспроизведение обычно не передает эмоций и интонаций. Специалисты NVIDIA разработали систему искусственного интеллекта, которая решает эту проблему: ее речь сложно отличить от естественной.

Особенности системы

У каждого человека свой тембр голоса, ритм и интонации, которые меняются в зависимости от ситуации и настроения. Синтезировать все это достаточно сложно – вот почему мы достаточно быстро понимаем, что общаемся с программой, а не с живыми людьми. Искусственная речь информативна, но не вызывает эмоционального отклика.

Исследователи NVIDIA создали модели и инструменты для высококачественного управляемого синтеза голоса. Они передают богатство человеческой речи без звуковых артефактов. Систему представили на конференции Interspeech 2021.

Модель синтеза речи RAD-TTS ранее победила в профильном конкурсе SIGGRAPH Real-Time Live. После обучения на примере речи конкретного человека она может воспроизвести любую текстовую подсказку голосом говорившего.

Рассматривая человеческий голос как музыкальный инструмент, ученые создали для RAD-TTS интерфейс для точного управления высотой, длительностью и энергией синтезированного звукового потока. В результате система научилась передавать речь или даже пение одного человека голосом другого.

Первые эксперименты проводили над сотрудниками компании. Так, видеопродюсер NVIDIA прочитал вслух сценарий видеоролика, а затем использовал модель искусственного интеллекта для преобразования своей речи в голос женщины-рассказчицы. После этого видеопродюсер смог работать с моделью искусственного интеллекта как с актером озвучки: настроить синтезированную речь, чтобы выделить определенные слова, и изменить темп повествования, чтобы лучше передать тон видео.

 

 

Применение

Модели синтеза человеческой речи, разработанные NVIDIA, могут помочь автоматическим линиям обслуживания клиентов для банков и интернет-магазинов, оживить персонажей книг, наделить голосом цифровые аватары в реальном времени. Их можно будет использовать для дубляжа фильмов и видеоигр. Креативная команда NVIDIA уже использует эту технологию для создания выразительного повествования в серии видеороликов о возможностях искусственного интеллекта.

Но возможности модели искусственного интеллекта выходят за рамки озвучивания. Например, преобразование текста в речь можно использовать в играх, чтобы помочь людям с нарушениями голоса, или дать персонажу голос геймера, который им управляет. Система даже может воссоздать выступления известных певцов, передавая и мелодию, и эмоциональное наполнение вокала.

Исследователи подчеркнули: выразительный синтез речи – лишь одно из направлений исследований NVIDIA в области разговорного искусственного интеллекта. Специалисты также занимаются созданием моделей для эффективной обработки естественного языка, автоматического распознавания речи, обнаружения ключевых слов, улучшения звука.

Готовые инструменты для разработчиков

Часть технологий, оптимизированных для запуска на графических процессорах NVIDIA, легла в основу NVIDIA NeMo. Это набор инструментов с открытым исходным кодом, написанный на Python. Он доступен на GitHub и в виде Docker-контейнера. Инструменты можно использовать для экспериментов с синтезом голоса и точной настройки речевых моделей для собственных приложений.

API и модели, предварительно обученные в NeMo, помогают исследователям разрабатывать и адаптировать средства преобразования текста в речь, обработки естественного языка и автоматического распознавания речи в реальном времени. Некоторые модели обучаются с использованием десятков тысяч часов аудиоданных в системах NVIDIA DGX. Ускорить обучение можно с помощью вычислений со смешанной точностью на графических процессорах NVIDIA Tensor Core.

В NVIDIA NeMo также есть модели, обученные на наборе данных Mozilla Common Voice. Это крупнейший в мире открытый голосовой датасет – около 14 тыс. часов речевых данных на 76 языках, собранных с помощью краудсорсинга от энтузиастов по всему миру.

Автор:
Обозреватель


См. также

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    202    user1915669    0       

1

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    360    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    413    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    522    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1058    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    860    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    653    VKuser24342747    0       

2

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    796    VKuser24342747    2       

1
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
Оставьте свое сообщение