Распознавание речи с помощью Open AI(cuda) без сторонних сервисов

02.04.24

Интеграция - Распознавание документов и образов

В данной статье мы рассмотрим пример, как можно улучшить CRM с клиентами, загружая записанные разговоры из ATC Astrrisk (или любыми аналогичными, умеющими записывать переговоры). Для этого мы будем использовать мощные инструменты от Open AI Whisper.

Файлы

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование	Скачано	Купить файл	По подписке PRO
Расширение Распознавание речи с помощью Open AI(cuda) для УТ 11. УХ, ERP .cfe 25,65Kb 7	7	2 500 руб. Купить	1 SM Скачать
Внешняя обработка Распознавание речи с помощью Open AI(cuda) для УТ11, ERP, УХ .epf 8,14Kb 5	5	2 500 руб. Купить	1 SM Скачать

Вы можете заказать платную доработку или адаптацию этой разработки под вашу конфигурацию на «Бирже заказов».

0% комиссии — оплата напрямую исполнителю;
Исполнители любого масштаба — от отдельных специалистов до команд под проект;
Прямой обмен контактами между заказчиком и исполнителем;
Безопасная сделка — при необходимости;
Рейтинги, кейсы и прозрачная система откликов.

Плюс данной технологии заключается в том, что мы будем вести обработку перс данных на нашем личном сервере без передачи данных на какие-то "облачные сервера". При этом нам не придется платить за услуги распознавания.

Минусом является то, что даже самый мощный CPU будет довольно долго обрабатывать часы переговоров с клиентами. Для этого нам понадобится отдельная машина (CPU 8 ядер и выше). Видеокарта Nvidea: минимум я рекомендую видеокарты GTX 1080ti. Я же использую RTX 3090 из-за того, что на ней 24gb видеопамяти. С ней один час переговоров конвертируется за примерно за 12-15 секунд. GTX 1080ti будет обрабатывать примерно 1 час за 40-60 секунд.

Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Итак, что мы имеем на входе: на входе мы имеем гигабайты переговоров, записанных на миниАТС, Астерикс, которые имеют названия 2024013401_84959260954.wav, где в начале идет дата, далее номер телефона, ну и, конечно же, сама запись в формате wav.

Наша задача:

1. Распознать текст переговоров

2. Распарcить его в HTML

3. Загрузить ее в 1С. Для теста я использую УТ, но тут можно и CRM, УХ, ERP и т.п.

Для этого мы находим клиента по номеру телефона в контактах.

На выходе мы должны получить такой вот результат

1. Регистрируется входящий звонок:

Внутрь помещается наш распознанный текст переговоров

Ну а теперь давайте рассмотрим, как это реализовать.

1. Устанавливаем на подготовленную машину с видеокартой Python 3.11 (рекомендуется) Windows.

Обязательно установим галочку python path. Если не установить, то будет весело

2. Далее скачиваем совместную разработку с братом, доработанную для работы с 1С, с github. https://github.com/magican82/voice_to_html

Все аудиозаписи должны помещаться в папку WAV.

Я лично закачиваю с помощью bat файла, забираю их с ftp АТС Астерикс.

3. Устанавливаем Open AI Whisper https://github.com/openai/whisper. Это, я думаю, самый сложный пункт, но я думаю, разберетесь. В самом репозитарии имеется readme.

4. Теперь установим https://github.com/pyannote/pyannote-audio. Тут рекомендую установить версию 3.0, а не 3.11, если не хотите заморачиваться с регистрацией токенов и т.п.

5. Накатываете расширение за один инфомани. В самом расширении указываете путь с общей папкой, куда вы скачали и установили python модуль из пункта 2.

6. Теперь скачиваете обработку в описании за 1 инфомани.

7. Если все прошло успешно, запускаете командную строку с папки, куда установили Python модуль "voice_to_html"

cd C:\python\voicercognition
python convert_html.py
C:\Program Files (x86)\1cv8\8.3.5.хххх\bin\1cv8.exe» ENTERPRISE /DisableStartupMessages /FС:\путь к базе /N»ИмяПользователя» /P»ПарольПользователя» /Execute с:\путь к обработке\самаобработка.epf

Данную команду следует установить в шедуллер и запускать с регулярностью раз в час и т.п.

Как мы видим, сначала запускается pyhon модуль и делает из звука html файл.

Далее запускается 1С обработка и загружает html файлы в систему взаимодействий 1С и создает документы "ТелефонныйЗвонок" с признаком входящий вызов.

На данный момент дописываю доработку таким образом, чтобы могла идентифицировать автора по ключевому идентификатору.

Всем спасибо.

Тесты проводились на платформе 1С:Предприятие 8.3 (8.3.23.2137).

Вступайте в нашу телеграмм-группу Инфостарт

+28 –

См. также

Когда много сканов: Автоматическое прикрепление сканированных документов

Учет документов Распознавание документов и образов Бухгалтер Пользователь 1С:Предприятие 8 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Россия Платные (руб)

Одна из наиболее удобных обработок автоматического прикрепления большого количества документов-оригиналов к документам 1С. Для файлов поточного сканирования автоматически определяются начало и конец каждого документа. Поддерживаются штрихкоды, QR-коды, отсканированные PDF документы без штрихкодов, сформированные в ЭДО текстовые PDF документы. Поддерживаются входящие и исходящие документы-оригиналы.

87108 руб.

23.12.2021 16848 33 25

SALE! 35%

Распознавание и загрузка документов в 1С

Загрузка и выгрузка в Excel Документооборот и делопроизводство (СЭД) Учет документов Распознавание документов и образов Бухгалтер Пользователь 1С:Предприятие 8 1С 8.3 1С 8.5 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Розница 2 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление холдингом 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Бухгалтерский учет Управленческий учет Платные (руб)

Программа для распознавания сканов или фотографий товарных документов в 1С. Просто выбираете файл (PDF, XML, JPG, DOC, XLS, HTML) и нажимаете кнопку "Распознать и загрузить".

~~8540~~ 5551 руб.

04.06.2019 125219 370 183

366

Распознавание штрихкодов: 1С + PowerShell + ZXing + MuPDF

Распознавание документов и образов Системный администратор Программист 1С 8.3 Россия Абонемент ($m)

Как распознать штрихкоды на одиночных и многостраничных PDF, когда некоторые из штрихкодов выглядят размыто? Пошаговый разбор создания конвейера обработки изображений на базе 1С, PowerShell, библиотеки ZXing и MuPDF. Внутри — готовый скрипт с алгоритмом попиксельной бинаризации и замерами производительности.

1 стартмани

вчера в 11:20 146 Destimann 0

Обработка многостраничных файлов PDF с разделением на отдельные документы по штрих-коду для 1С:ДО

Учет документов Распознавание документов и образов Системный администратор Программист Руководитель проекта 1С:Документооборот Платные (руб)

Обработка многостраничных файлов PDF с разбиением на отдельные документы по штрих-коду и сохранение документов в отдельные файлы для. Не требуется интернет, внешние утилиты командной строки и т.д. Плюсы: скорость работы, независимость от внешних библиотек или утилит, достаточно большой перечень поддерживаемых типов ШК, возможность фильтрации по формату и данным ШК. Не требует установки (portable), может работать несколько экземпляров ПО на одном хосте с разными настройками.

12200 руб.

07.07.2026 178 0 0

Локальная транскрибация вместо облака: как я собрал MVP для расшифровки чувствительных аудиозаписей

Распознавание документов и образов Программист Россия Бесплатно (free)

История о том, как запустить локальное распознавание аудио на Whisper и не сойти с ума, разрываясь между клиентами, техзаданиями и внезапным потопом в квартире. Практический MVP для расшифровки чувствительных записей без облака: от обхода проблем с CUDA под Windows до превращения хаотичного разговора о маркировке в четкую основу для задачи в 1С.

22.06.2026 410 otcheskiy 8

ИИ-Технолог

Интеграция Нейросети DevOps и автоматизация разработки Распознавание документов и образов 1C:ERP 1С:КА 1С:УНФ Химическая промышленность Горнодобывающая промышленность Металлургическая промышленность Россия Платные (руб)

От чертежа до себестоимости — за минуты, а не дни. ИИ-Технолог автоматически распознаёт чертежи и техническую документацию (включая фото, сканы, PDF, Excel), рассчитывает нормы времени, формирует технологические маршруты, оценивает возможность изготовления и точную себестоимость. Интеграция с 1С (ERP, MES, КА, УНФ) и отраслевыми нормативами (ГОСТы).

366000 руб.

18.06.2026 720 0 2

Модуль интеграции с SberScan

Распознавание документов и образов WEB-интеграция Программист 1С 8.3 1С:ERP Управление предприятием 2 Россия Абонемент ($m)

Представлен модуль интеграции с сервисом SberScan.

1 стартмани

16.06.2026 294 0 tori131313 0

DataMatrix Recognition API: распознаём штрихкоды «Честного Знака» и передаём в 1С

Распознавание документов и образов Обмен с ГосИС Программист 1С 8.3 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1C:ERP Бесплатно (free)

HTTP-сервис на python для распознавания DataMatrix штрихкодов "Честный Знак" из изображений. Принимает изображение в формате base64, выполняет распознавание и возвращает результат в JSON.

09.06.2026 986 rozer 2

Комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. Luis-Gomer 64 03.04.24 17:09 Сейчас в теме

Спасибо, всегда интересны подобные изыскания.

4. Indgo 433 03.04.24 23:32 Сейчас в теме

(1)спасибо за отзыв+

2. siamagic 03.04.24 20:51 Сейчас в теме

Шикарная работа!

3. Indgo 433 03.04.24 23:32 Сейчас в теме

Спасибо+

5. Red1 25 04.04.24 09:25 Сейчас в теме

Круто заморочились...

6. starik-2005 3293 04.04.24 11:05 Сейчас в теме

"зафиксирован ход фашистичный кабинет" - эт прям шодевр!

11. Indgo 433 04.04.24 15:25 Сейчас в теме

(6) тут я использовал модель medium. В модели large - чуть получше м в 4 раза дольше.

7. DENSKR 15 04.04.24 13:48 Сейчас в теме

А где продолжение разговора со службой безопасности?

13. Indgo 433 04.04.24 15:50 Сейчас в теме

(7) на скриншот не влезло ;-)

8. John_d 6114 04.04.24 13:52 Сейчас в теме

Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Получается нужно выделять специальный компьютер с видеокартой для этих целей.

10. Indgo 433 04.04.24 15:18 Сейчас в теме

(8)да все верно.

9. SerVer1C 1104 04.04.24 14:28 Сейчас в теме

Юзал для распознавания голоса оффлайн движок "vosk". На процессоре (без видеокарты) скорость была 5,8x, т.е. для распознавания 5,8 мин аудио требуется 1 мин времени обработки.
Если распараллелить на 8 потоков, то уже коэффициент получается 28,7x (1 час аудио распознается за 2 мин).
Ну и полная модель загружается в память за 2,5 мин.
Движок может задействовать видеокарты NVidia (но не Nvidea)
Если интересно, ставьте под комментом лайки, может напишу про это статью.

Ответить

12. Indgo 433 04.04.24 15:32 Сейчас в теме

(9) поверьте Vosk на порядок слабее чем ai whisper на gpu. Раньше я его использовал, когда не было whisper. Vosk кстати можно было заставить работать тна cuda. Но для этого не одну ночь приходилось дипендненсы подгонять.

Для отправки сообщения требуется регистрация/авторизация

Автор:

(Indgo)

Рейтинг: 433

Вы можете заказать платную консультацию или разработку у автора. Будет создан приватный заказ на «Бирже заказов» для автора.

Публикация:

№ 2079176

Создание 02.04.24 21:30

Обновление 02.04.24 21:30

Статистика:

Просмотры 5186

Загрузки 12

Рейтинг 28

Комментарии 13

Характеристики:

Код открыт Да

Рубрики Распознавание документов и образов

Кому Программист

Тип файла Внешняя обработка (ert,epf)

Платформа 1С:Предприятие 8

Конфигурация 1C:Бухгалтерия

Операционная система Не имеет значения

Страна Не имеет значения

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Абонемент ($m)

Распознавание речи с помощью Open AI(cuda) без сторонних сервисов

Файлы

См. также

Журнал

База знаний

Лаборатория

Анализ & Управление

Сопровождение 1С

Корпоративные решения

Обучение

Маркетплейс

Проектный офис

Мероприятия

Видеозаписи

Биржа заказов

Форум

Мерч

О компании