Компания Mozilla выпустила систему распознавания речи, которая еще больше приблизилась к уровню человека.
Представленная технология работает на движке DeepSpeech с использованием одноименной архитектуры Baidu и платформы машинного обучения TensorFlow от Google.
Для обучения модели была использована база из 400 тыс. сообщений, общая продолжительность которых составила около 500 часов. База была собрана в рамках проекта CommonVoice, который привлек более 20 тыс. добровольцев. Собранный материал содержал большое количество голосовых фраз с различным речевым поведением, что позволило обучить систему распознавать речь на уровне, близком к человеческим показателям.
Как сообщается на официальном сайте Mozilla, коэффициент ошибок в словах в тестовом массиве данных LibriSpeech составил 6,5%. При этом уровень ошибок Google Speech составляет 6,64%, у Apple Dictation – 14,24%, а человек делает ошибки в среднем в 5,83% случаев.
В компании отметили, что идея проекта не только в создании новой модели для распознавания речи, но и в создании большого речевого корпуса с открытым исходным кодом, который затем можно будет использовать в крупных проектах.
Помимо модели по распознаванию речи система включает в себя модули для Python и NodeJS, упрощающие интеграцию системы в программные продукты, а также инструменты для командной строки.
Пока система распознает только английский язык, однако в первой половине 2018 года планируется начать формирование базы с примерами произношения фраз из других языков.