«Сбер» открыл бесплатный доступ к своему сервису речевых технологий

«Сбер» открыл бесплатный доступ к своему сервису речевых технологий
20.05.2021
27620

Разработка банка на базе архитектуры Tacotron 2 способна распознавать и синтезировать речь. Нейросеть обучена на собственном суперкомпьютере «Сбера» и реальных записях разговорного русского языка.

Ключевые особенности

Сервис «Сбера» получил название SmartSpeech. Он позволяет компаниям задействовать речевые технологии без необходимости приобретать и устанавливать специализированную аппаратуру. По словам разработчиков проекта, новые возможности будут востребованы при создании голосовых меню (IVR), автоответчиков и чатов, оптимизации работы колл-центров. Бесплатный доступ к инструментарию приложения будет открыт до конца 2021 года.

SmartSpeech предназначен для обработки голосового пользовательского ввода либо озвучивания готового текста. Сервис самостоятельно способен распознавать речь, а корректность ответов можно увеличить при помощи «подсказок», которые уточняют контекст запроса пользователя в конкретной ситуации. Однако автоматически генерировать сообщения система не способна.

В «Сбере» рассказали, что уже применяют сервис для внутренних нужд. При помощи SmartSpeech реализованы виртуальные ассистенты «Салют», а также доступна возможность узнать баланс на банковской карте по телефону без ожидания свободного оператора.

Применение сервиса

В качестве демонстрации работы SmartSpeech разработчики приводят в пример одну из типовых задач бизнеса – быстро и с минимальными затратами решить вопрос клиента по телефону. Благодаря роботу-автоответчику пользователю достаточно описать свою проблему, и он либо будет моментально переключен на оператора, либо получит автоматический ответ от системы. В сервисе использованы модели распознавания тишины и шума, система может определить начало и конец высказывания, а также эмоциональный тон собеседника, поэтому, по заверениям разработчиков, общение с ботом получится живым и эмпатичным.

Для озвучки шаблонного текста достаточно просто загрузить его в печатном виде в SmartSpeech. Сервис предлагает на выбор несколько голосов с разным тоном, тембром и настроением звучания. Система способна корректно синтезировать цифры, адреса, названия и верно расставлять ударения в словах, что уменьшает количество фонетических ошибок.

Использованные технологии

Нейросеть, отвечающая за синтез и распознавание речи, обучена на суперкомпьютере «Сбера» под названием «Кристофари». Сам сервис создан на языке С++, все вычисления проводятся на GPU. За генерацию произношения отвечают сверхточные архитектуры Jasper, QuartzNet и другие. Также применяется улучшенная Tacotron 2, в которую добавлен контроль за частотой основного тона речи и паузами. Для этого была использована модель BERT, обученная на русскоязычных текстах.

Для тестирования SmartSpeech разработан API для подключения и использования речевых технологий в собственных проектах. Программный интерфейс доступен через протоколы HTTP и gRPC. Заявку на участие в пробном запуске можно оставить на сайте «Сбера».

Автор:
Аналитик

См. также

Минцифры подготовило проект постановления по запуску платформы, на которой ИТ-специалисты могут пройти добровольное тестирование и подтвердить свою квалификацию.

11.12.2024    974    user1915669    3       

2

Федеральная налоговая служба запустила интерактивный сервис, позволяющий формировать в машиночитаемом виде договоры, контракты, соглашения и спецификации. Чтобы создать документ и скачать получившийся файл, регистрация не требуется.

03.12.2024    787    user2114475    0       

2

Российский Альянс по искусственному интеллекту обновил требования к специалистам по ИИ: вышла новая модель с основными профессиями и навыками. Теперь базовых профессий в сфере ИИ осталось только четыре.

01.11.2024    946    user1915669    0       

3

Система платежей «Волна» по планам сделает возможной бесконтактную оплату для владельцев IPhone в России, а BRICS Pay позволит совершать безналичные расчеты иностранцам по картам Visa и Mastercard.

23.10.2024    1250    AnastasiaKl    0       

4

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024    1234    user1915669    2       

2

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    865    user1915669    0       

2

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    979    AnastasiaKl    0       

1

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    1059    user1915669    0       

1

Комментарии

Инфостарт бот
1. rusmil 20.05.21 19:33 Сейчас в теме
быстро и с минимальными затратами решить вопрос клиента по телефону
Ага, испытал уже на себе, тупой робот не мог меня соединить с живым человеком 30 минут, хотя ему раз десять была сказана фраза "соединить с живым человеком с оператором". Лайфхак: после матюков быстро соединил. Интересно как у других?
LIL_PIVO; +1 Ответить
2. papami 20.05.21 20:08 Сейчас в теме
(1)
Интересно как у других?

Да везде все одинаково, думаю. Одно дело распознать текст, а другое - грамотно его отработать.

Оставьте свое сообщение