Facebook опубликовала исходники системы для посимвольного распознавания речи

Команда исследователей из Facebook AI Research (FAIR) опубликовала на GitHub исходный код проекта по распознаванию речи Wav2Letter, использующий посимвольный метод разбора.

Проект состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Для обработки звука подключается библиотека Libsndfile, а для цифровой обработки сигналов – FFTW. Запуск системы возможен либо на MacOS, либо на Linux.

В Wav2Letter применяется техника посимвольного разбора на основе автоматического сегментирования, которая позволяет обучить систему на основе аудиофайла и его текстовой транскрипции, без необходимости подключения словарей фонетической лексики.

Примечательно, что проект опубликован на GitHub менее месяца назад, но уже успел набрать более тысячи добавлений в «Избранное» у пользователей. Чтобы опробовать систему в действии, на странице проекта можно скачать готовую модель, натренированную для английского языка, либо попробовать обучить систему по предложенным инструкциям самостоятельно.

Согласно исследованиям, опубликованным на OpenNet, при проверке распознанного текста на тестовом наборе LibriSpeech система Wav2Letter показала одни из лучших результатов по уровню ошибок при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, при работе Mozilla Voice – 6.5%, для Google Speech – 6.64%, для wit.ai – 7.94%, для Bing Speech – 11.73% и для Apple Dictation – 14.24%.

Facebook опубликовала исходники системы для посимвольного распознавания речи

См. также

Журнал

База знаний

Лаборатория

Анализ & Управление

Сопровождение 1С

Корпоративные решения

Обучение

Маркетплейс

Проектный офис