«Сбер» открыл бесплатный доступ к своему сервису речевых технологий

20.05.2021      27491

Разработка банка на базе архитектуры Tacotron 2 способна распознавать и синтезировать речь. Нейросеть обучена на собственном суперкомпьютере «Сбера» и реальных записях разговорного русского языка.

Ключевые особенности

Сервис «Сбера» получил название SmartSpeech. Он позволяет компаниям задействовать речевые технологии без необходимости приобретать и устанавливать специализированную аппаратуру. По словам разработчиков проекта, новые возможности будут востребованы при создании голосовых меню (IVR), автоответчиков и чатов, оптимизации работы колл-центров. Бесплатный доступ к инструментарию приложения будет открыт до конца 2021 года.

SmartSpeech предназначен для обработки голосового пользовательского ввода либо озвучивания готового текста. Сервис самостоятельно способен распознавать речь, а корректность ответов можно увеличить при помощи «подсказок», которые уточняют контекст запроса пользователя в конкретной ситуации. Однако автоматически генерировать сообщения система не способна.

В «Сбере» рассказали, что уже применяют сервис для внутренних нужд. При помощи SmartSpeech реализованы виртуальные ассистенты «Салют», а также доступна возможность узнать баланс на банковской карте по телефону без ожидания свободного оператора.

Применение сервиса

В качестве демонстрации работы SmartSpeech разработчики приводят в пример одну из типовых задач бизнеса – быстро и с минимальными затратами решить вопрос клиента по телефону. Благодаря роботу-автоответчику пользователю достаточно описать свою проблему, и он либо будет моментально переключен на оператора, либо получит автоматический ответ от системы. В сервисе использованы модели распознавания тишины и шума, система может определить начало и конец высказывания, а также эмоциональный тон собеседника, поэтому, по заверениям разработчиков, общение с ботом получится живым и эмпатичным.

Для озвучки шаблонного текста достаточно просто загрузить его в печатном виде в SmartSpeech. Сервис предлагает на выбор несколько голосов с разным тоном, тембром и настроением звучания. Система способна корректно синтезировать цифры, адреса, названия и верно расставлять ударения в словах, что уменьшает количество фонетических ошибок.

Использованные технологии

Нейросеть, отвечающая за синтез и распознавание речи, обучена на суперкомпьютере «Сбера» под названием «Кристофари». Сам сервис создан на языке С++, все вычисления проводятся на GPU. За генерацию произношения отвечают сверхточные архитектуры Jasper, QuartzNet и другие. Также применяется улучшенная Tacotron 2, в которую добавлен контроль за частотой основного тона речи и паузами. Для этого была использована модель BERT, обученная на русскоязычных текстах.

Для тестирования SmartSpeech разработан API для подключения и использования речевых технологий в собственных проектах. Программный интерфейс доступен через протоколы HTTP и gRPC. Заявку на участие в пробном запуске можно оставить на сайте «Сбера».


Автор:
Аналитик


См. также

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    866    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    815    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    598    VKuser24342747    0       

2

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    758    VKuser24342747    2       

1

Новость Мобильные приложения ИТ-Новость

Новая версия Android Studio под номером 2023.1 получила имя Hedgehog. Появились возможности контролировать производительность приложений и управлять подключенными устройствами.

07.12.2023    962    VKuser24342747    2       

3

Новость GitHub ИТ-Новость

GitHub собрал данные об Open Source проектах в рамках ежегодного исследования Octoverse. Компания изучила географию репозиториев, используемые языки программирования и нейросети, а также активность сообщества.

15.11.2023    609    VKuser24342747    1       

2

Новость ИТ-компания ИТ-Новость

Компания «Сбер» заявила, что будет бесплатно предоставлять доступ к API нейросети для генерации текста GigaChat для некоммерческих проектов. Однако для них будет ограничено число доступных токенов.

01.11.2023    771    VKuser24342747    2       

3

Новость ИТ-Новость Программист

Вышла новая версия Geany 2.0. Обновление затронуло внешний вид программы, расширило поддержку файлов и сторонних проектов, добавило новые способы работы с кодом.

25.10.2023    792    VKuser24342747    0       

1
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. rusmil 262 20.05.21 19:33 Сейчас в теме
быстро и с минимальными затратами решить вопрос клиента по телефону
Ага, испытал уже на себе, тупой робот не мог меня соединить с живым человеком 30 минут, хотя ему раз десять была сказана фраза "соединить с живым человеком с оператором". Лайфхак: после матюков быстро соединил. Интересно как у других?
LIL_PIVO; +1 Ответить
2. papami 56 20.05.21 20:08 Сейчас в теме
(1)
Интересно как у других?

Да везде все одинаково, думаю. Одно дело распознать текст, а другое - грамотно его отработать.
Оставьте свое сообщение