Разработка банка на базе архитектуры Tacotron 2 способна распознавать и синтезировать речь. Нейросеть обучена на собственном суперкомпьютере «Сбера» и реальных записях разговорного русского языка.
Ключевые особенности
Сервис «Сбера» получил название SmartSpeech. Он позволяет компаниям задействовать речевые технологии без необходимости приобретать и устанавливать специализированную аппаратуру. По словам разработчиков проекта, новые возможности будут востребованы при создании голосовых меню (IVR), автоответчиков и чатов, оптимизации работы колл-центров. Бесплатный доступ к инструментарию приложения будет открыт до конца 2021 года.
SmartSpeech предназначен для обработки голосового пользовательского ввода либо озвучивания готового текста. Сервис самостоятельно способен распознавать речь, а корректность ответов можно увеличить при помощи «подсказок», которые уточняют контекст запроса пользователя в конкретной ситуации. Однако автоматически генерировать сообщения система не способна.
В «Сбере» рассказали, что уже применяют сервис для внутренних нужд. При помощи SmartSpeech реализованы виртуальные ассистенты «Салют», а также доступна возможность узнать баланс на банковской карте по телефону без ожидания свободного оператора.
Применение сервиса
В качестве демонстрации работы SmartSpeech разработчики приводят в пример одну из типовых задач бизнеса – быстро и с минимальными затратами решить вопрос клиента по телефону. Благодаря роботу-автоответчику пользователю достаточно описать свою проблему, и он либо будет моментально переключен на оператора, либо получит автоматический ответ от системы. В сервисе использованы модели распознавания тишины и шума, система может определить начало и конец высказывания, а также эмоциональный тон собеседника, поэтому, по заверениям разработчиков, общение с ботом получится живым и эмпатичным.
Для озвучки шаблонного текста достаточно просто загрузить его в печатном виде в SmartSpeech. Сервис предлагает на выбор несколько голосов с разным тоном, тембром и настроением звучания. Система способна корректно синтезировать цифры, адреса, названия и верно расставлять ударения в словах, что уменьшает количество фонетических ошибок.
Использованные технологии
Нейросеть, отвечающая за синтез и распознавание речи, обучена на суперкомпьютере «Сбера» под названием «Кристофари». Сам сервис создан на языке С++, все вычисления проводятся на GPU. За генерацию произношения отвечают сверхточные архитектуры Jasper, QuartzNet и другие. Также применяется улучшенная Tacotron 2, в которую добавлен контроль за частотой основного тона речи и паузами. Для этого была использована модель BERT, обученная на русскоязычных текстах.
Для тестирования SmartSpeech разработан API для подключения и использования речевых технологий в собственных проектах. Программный интерфейс доступен через протоколы HTTP и gRPC. Заявку на участие в пробном запуске можно оставить на сайте «Сбера».