Mozilla представила систему распознавания речи с открытым исходным кодом

Компания Mozilla выпустила систему распознавания речи, которая еще больше приблизилась к уровню человека.

Представленная технология работает на движке DeepSpeech с использованием одноименной архитектуры Baidu и платформы машинного обучения TensorFlow от Google.

Для обучения модели была использована база из 400 тыс. сообщений, общая продолжительность которых составила около 500 часов. База была собрана в рамках проекта CommonVoice, который привлек более 20 тыс. добровольцев. Собранный материал содержал большое количество голосовых фраз с различным речевым поведением, что позволило обучить систему распознавать речь на уровне, близком к человеческим показателям.

Как сообщается на официальном сайте Mozilla, коэффициент ошибок в словах в тестовом массиве данных LibriSpeech составил 6,5%. При этом уровень ошибок Google Speech составляет 6,64%, у Apple Dictation – 14,24%, а человек делает ошибки в среднем в 5,83% случаев.

В компании отметили, что идея проекта не только в создании новой модели для распознавания речи, но и в создании большого речевого корпуса с открытым исходным кодом, который затем можно будет использовать в крупных проектах.

Помимо модели по распознаванию речи система включает в себя модули для Python и NodeJS, упрощающие интеграцию системы в программные продукты, а также инструменты для командной строки.

Пока система распознает только английский язык, однако в первой половине 2018 года планируется начать формирование базы с примерами произношения фраз из других языков.

Mozilla представила систему распознавания речи с открытым исходным кодом

См. также

Журнал

База знаний

Лаборатория

Анализ & Управление

Сопровождение 1С

Корпоративные решения

Обучение

Маркетплейс

Проектный офис