Крючков Владимир | Начальник сектора разработки | ООО "Группа Полипластик"

«Как мы разрабатываем в EDT»

1. Ответим на вопрос как мы переходили на разработку в EDT. Где было больно и что стало лучше? Где светлое будущее? 2. Расскажем про использование процессов разработки для коммерческих продуктов и open source. Что такое «Git Flow», «Git Lab Flow» и «Git Hub Flow» в чем их отличие и в чем сила? 3. Командная разработка в новых реалиях: Где и как нам помогает SCRUM? Как и где используем KANBAN? Нужно ли следовать за белым кроликом? 4. Про системы баг трекинга: Интеграция с системами баг трекинга для коммерческих решений на примере JIRA. Достаточно ли возможностей «Git Hub Issue» для open source? 5. Про репозитарии: Какой репозитарий выбрать? Что такое «bitbucket», «github» и что они умеют? Как все это увязать с EDT и баг трекингом? Когда использовать приватные, а когда публичные хранилища? 6. Используем новые волшебные возможности: автосборка релиза, code review, pull request, ветвление (bruches) и др. Как именовать ветки и что писать в коммитах чтобы получить профит. 7. Немного про качество продукта: Как мы запускаем тесты при разработке в EDT? Как используем open source Фреймворк «Тестирование 3.0»?

Facebook опубликовала исходники системы для посимвольного распознавания речи

Возврат к списку

12.01.2018     

Команда исследователей из Facebook AI Research (FAIR) опубликовала на GitHub исходный код проекта по распознаванию речи Wav2Letter, использующий посимвольный метод разбора.

Проект состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Для обработки звука подключается библиотека Libsndfile, а для цифровой обработки сигналов – FFTW. Запуск системы возможен либо на MacOS, либо на Linux.

В Wav2Letter применяется техника посимвольного разбора на основе автоматического сегментирования, которая позволяет обучить систему на основе аудиофайла и его текстовой транскрипции, без необходимости подключения словарей фонетической лексики.

Примечательно, что проект опубликован на GitHub менее месяца назад, но уже успел набрать более тысячи добавлений в «Избранное» у пользователей. Чтобы опробовать систему в действии, на странице проекта можно скачать готовую модель, натренированную для английского языка, либо попробовать обучить систему по предложенным инструкциям самостоятельно.

Согласно исследованиям, опубликованным на OpenNet, при проверке распознанного текста на тестовом наборе LibriSpeech система Wav2Letter показала одни из лучших результатов по уровню ошибок при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, при работе Mozilla Voice – 6.5%, для Google Speech – 6.64%, для wit.ai – 7.94%, для Bing Speech – 11.73% и для Apple Dictation – 14.24%.


Автор:
Виктория Дорохина Консультант 1С


Сортировка: Древо
В этой теме еще нет сообщений.
Оставьте свое сообщение

См. также