OpenAI опубликовала код системы распознавания речи Whisper

28.09.2022      14427

OpenAI открыла исходный код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей для использования под лицензией MIT. Нейросеть используется для перевода речи в текст.

Ключевые возможности

По словам разработчиков, Whisper способна корректно обрабатывать речь с акцентом, распознавать фоновый шум, понимать технические термины и жаргонные выражения. Программа может перевести речь с любого языка на английский и автоматически фиксировать начало разговора в аудиопотоке.

OpenAI представила две модели. Одна предназначена для английского языка. Вторая – многоязычная, которая поддерживает в том числе русский и белорусский языки. Для каждой модели доступны пять вариантов с различным размером и числом параметров. Самая маленькая модель прошла обучение на 39 млн параметров и требует 1 ГБ видеопамяти для обработки данных. Самая большая натренирована на 1550 млн параметров, для ее работы нужно 10 ГБ видеопамяти.

Разработчики Whisper утверждают, что нейросеть способна распознавать англоязычную речь практически как человек.

Принцип работы системы

Whisper основан на архитектуре нейросети Transformer, в которую входят кодировщик и декодировщик. Перед началом обработки звуковой файл разделяется на 30-секундные отрезки, которые затем преобразуются в log-Mel-спектрограмму для кодировщика. Далее данные принимает декодировщик, который предсказывает текст на основе речи.

В программе используются специальные токены, благодаря которым возможно в рамках одной модели решать различные задачи: определять язык, учитывать хронологию звучания фраз, проводить транскрипцию речи на других языках и переводить ее на английский.

Для обучения Whisper разработчики применили архив из 680 тыс. часов речевых данных. В качестве источников были выбраны несколько коллекций по разным темам и на разных языках. Их объем составляет примерно треть от общего размера информации в базе нейросети.

Другие разработки

Ранее OpenAI предоставила пользователям из списка ожидания доступ к нейросети DALL-E 2, которая способна генерировать изображения по текстовому описанию. Также организация позволила использовать приложение на частично платной основе через систему кредитов.


Автор:
Аналитик


См. также

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    197    user1915669    0       

1

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    356    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    409    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    521    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1057    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    858    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    651    VKuser24342747    0       

2

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    795    VKuser24342747    2       

1
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
Оставьте свое сообщение