OpenAI опубликовала код системы распознавания речи Whisper

OpenAI опубликовала код системы распознавания речи Whisper
28.09.2022
14803

OpenAI открыла исходный код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей для использования под лицензией MIT. Нейросеть используется для перевода речи в текст.

Ключевые возможности

По словам разработчиков, Whisper способна корректно обрабатывать речь с акцентом, распознавать фоновый шум, понимать технические термины и жаргонные выражения. Программа может перевести речь с любого языка на английский и автоматически фиксировать начало разговора в аудиопотоке.

OpenAI представила две модели. Одна предназначена для английского языка. Вторая – многоязычная, которая поддерживает в том числе русский и белорусский языки. Для каждой модели доступны пять вариантов с различным размером и числом параметров. Самая маленькая модель прошла обучение на 39 млн параметров и требует 1 ГБ видеопамяти для обработки данных. Самая большая натренирована на 1550 млн параметров, для ее работы нужно 10 ГБ видеопамяти.

Разработчики Whisper утверждают, что нейросеть способна распознавать англоязычную речь практически как человек.

Принцип работы системы

Whisper основан на архитектуре нейросети Transformer, в которую входят кодировщик и декодировщик. Перед началом обработки звуковой файл разделяется на 30-секундные отрезки, которые затем преобразуются в log-Mel-спектрограмму для кодировщика. Далее данные принимает декодировщик, который предсказывает текст на основе речи.

В программе используются специальные токены, благодаря которым возможно в рамках одной модели решать различные задачи: определять язык, учитывать хронологию звучания фраз, проводить транскрипцию речи на других языках и переводить ее на английский.

Для обучения Whisper разработчики применили архив из 680 тыс. часов речевых данных. В качестве источников были выбраны несколько коллекций по разным темам и на разных языках. Их объем составляет примерно треть от общего размера информации в базе нейросети.

Другие разработки

Ранее OpenAI предоставила пользователям из списка ожидания доступ к нейросети DALL-E 2, которая способна генерировать изображения по текстовому описанию. Также организация позволила использовать приложение на частично платной основе через систему кредитов.

Если вам удобнее смотреть новости в телеграме, то вот наша группа – ИНФОСТАРТ.

Автор:
Аналитик

См. также

После ухода Slack из России в 2024 году бизнес стал переходить на отечественные корпоративные мессенджеры. Один из самых универсальных — 1С-Коннект. Расскажем подробнее о нём и других решениях российских разработчиков.

24.04.2025    367    AnastasiaKl    4       

3

С января по март 2025 года Ассоциация КП ПОО провела исследование отечественных систем виртуализации, коммуникации и контейнеризации по 266 показателям. Результаты показали, что медианная технологическая зрелость у этих ИТ-решений превышает 75%.

04.04.2025    1141    orenk0t    1       

0

Минцифры подготовило проект постановления по запуску платформы, на которой ИТ-специалисты могут пройти добровольное тестирование и подтвердить свою квалификацию.

11.12.2024    1142    user1915669    3       

2

Федеральная налоговая служба запустила интерактивный сервис, позволяющий формировать в машиночитаемом виде договоры, контракты, соглашения и спецификации. Чтобы создать документ и скачать получившийся файл, регистрация не требуется.

03.12.2024    919    user2114475    0       

2

Российский Альянс по искусственному интеллекту обновил требования к специалистам по ИИ: вышла новая модель с основными профессиями и навыками. Теперь базовых профессий в сфере ИИ осталось только четыре.

01.11.2024    1057    user1915669    0       

3

Система платежей «Волна» по планам сделает возможной бесконтактную оплату для владельцев IPhone в России, а BRICS Pay позволит совершать безналичные расчеты иностранцам по картам Visa и Mastercard.

23.10.2024    1394    AnastasiaKl    0       

4

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024    1315    user1915669    2       

2

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    977    user1915669    0       

2
Инфостарт бот

Оставьте свое сообщение