Распознавание речи с помощью Open AI(cuda) без сторонних сервисов

02.04.24

Интеграция - Распознавание документов и образов

В данной статье мы рассмотрим пример, как можно улучшить CRM с клиентами, загружая записанные разговоры из ATC Astrrisk (или любыми аналогичными, умеющими записывать переговоры). Для этого мы будем использовать мощные инструменты от Open AI Whisper.

Файлы

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование Скачано Купить файл
Расширение Распознавание речи с помощью Open AI(cuda) для УТ 11. УХ, ERP
.cfe 25,65Kb
7 2 500 руб. Купить
Внешняя обработка Распознавание речи с помощью Open AI(cuda) для УТ11, ERP, УХ
.epf 8,14Kb
5 2 500 руб. Купить

Подписка PRO — скачивайте любые файлы со скидкой до 85% из Базы знаний

Оформите подписку на компанию для решения рабочих задач

Оформить подписку и скачать решение со скидкой

Плюс данной технологии заключается в том, что мы будем вести обработку перс данных на нашем личном сервере без передачи данных на какие-то "облачные сервера". При этом нам не придется платить за услуги распознавания.

Минусом является то, что даже самый мощный CPU будет довольно долго обрабатывать часы переговоров с клиентами. Для этого нам понадобится отдельная машина (CPU 8 ядер и выше). Видеокарта Nvidea: минимум я рекомендую видеокарты GTX 1080ti. Я же использую RTX 3090 из-за того, что на ней 24gb видеопамяти. С ней один час переговоров конвертируется за примерно за 12-15 секунд. GTX 1080ti будет обрабатывать примерно 1 час за 40-60 секунд.

Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Итак, что мы имеем на входе: на входе мы имеем гигабайты переговоров, записанных на миниАТС, Астерикс, которые имеют названия 2024013401_84959260954.wav, где в начале идет дата, далее номер телефона, ну и, конечно же, сама запись в формате wav.

Наша задача:

1. Распознать текст переговоров 

2. Распарcить его в HTML

3. Загрузить ее в 1С. Для теста я использую УТ, но тут можно и CRM, УХ, ERP и т.п.

Для этого мы находим клиента по номеру телефона в контактах.

На выходе мы должны получить такой вот результат 

1. Регистрируется входящий звонок:

 

 

Внутрь помещается наш распознанный текст переговоров

 

 

Ну а теперь давайте рассмотрим, как это реализовать.

1. Устанавливаем на подготовленную машину с видеокартой Python 3.11 (рекомендуется) Windows.

Обязательно установим галочку python path. Если не установить, то будет весело

2. Далее скачиваем совместную разработку с братом, доработанную для работы с 1С, с github. https://github.com/magican82/voice_to_html

Все аудиозаписи должны помещаться в папку WAV. 

Я лично закачиваю с помощью bat файла, забираю их с ftp АТС Астерикс.

3. Устанавливаем Open AI Whisper https://github.com/openai/whisper. Это, я думаю, самый сложный пункт, но я думаю, разберетесь. В самом репозитарии имеется readme.

4. Теперь установим https://github.com/pyannote/pyannote-audio. Тут рекомендую установить версию 3.0, а не 3.11, если не хотите заморачиваться с регистрацией токенов и т.п.

5. Накатываете расширение за один инфомани. В самом расширении указываете путь с общей папкой, куда вы скачали и установили python модуль из пункта 2.

 

 

6. Теперь скачиваете обработку в описании за 1 инфомани.

7. Если все прошло успешно, запускаете командную строку с папки, куда установили Python модуль "voice_to_html"

cd C:\python\voicercognition
python convert_html.py
C:\Program Files (x86)\1cv8\8.3.5.хххх\bin\1cv8.exe» ENTERPRISE /DisableStartupMessages /FС:\путь к базе /N»ИмяПользователя» /P»ПарольПользователя» /Execute с:\путь к обработке\самаобработка.epf

Данную команду следует установить в шедуллер и запускать с регулярностью раз в час и т.п.

Как мы видим, сначала запускается pyhon модуль и делает из звука html файл. 

Далее запускается 1С обработка и загружает html файлы в систему взаимодействий 1С и создает документы "ТелефонныйЗвонок" с признаком входящий вызов.

На данный момент дописываю доработку таким образом, чтобы могла идентифицировать автора по ключевому идентификатору.

Всем спасибо.

Тесты проводились на платформе 1С:Предприятие 8.3 (8.3.23.2137).

Вступайте в нашу телеграмм-группу Инфостарт

См. также

SALE! 30%

Нейросети Распознавание документов и образов Программист Бухгалтер Пользователь 1С 8.3 1С:Комплексная автоматизация 1.х 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Россия Абонемент ($m)

Решение поставляется в 2 версиях: при наличии видеокарты расширение+GPU версия или расширение+СPU версия. Поддерживает 3 режима работы, локальное (на вашем ПК), ИИ-модель (облачная), гибридная локальная+ИИ. В локальном режиме распознавание бесплатно. В ИИ режиме в среднем 0.5 рубля за страницу. Неограниченное количество пользователей. Распознает сканы: УПД, счета-фактуры, товарные накладные. Проверяет цифры и помогает создавать документы в 1С. Отправляйте документы через Telegram бот

5 стартмани

20.02.2026    480    1    dasan92    0    

3

Распознавание документов и образов Программист 1С 8.3 Бесплатно (free)

Рано или поздно каждый 1С-специалист может столкнуться с фактически нерешаемой задачей: организацией загрузки из файла контрагента, где данные предлагается синхронизировать по строке, например, наименованию номенклатуры. Зачастую это строковое представление лишь отдаленно напоминает наименование из соответствующего справочника информационной базы заказчика. То есть фактически контрагент произвольно излагает своё желание, а заказчик требует автоматизировать процесс сопоставления. Надо понимать, что 100% решения задачи не существует. Например, если при анализе примеров стало понятно, что клиентам несвойственна грамотность, лучше вообще не браться за такую автоматизацию. Тем не менее, задачу сопоставления строки из последовательности слов с наименованиями из справочника, где порядок слов может различаться, автору удалось решить в приемлемом для заказчика виде. Предлагаются формулировка условий задачи и подходы к реализации решения

09.02.2026    327    Sergey1CSpb    0    

1

Распознавание документов и образов Бухгалтер Пользователь 1С 8.3 1С:Бухгалтерия 3.0 Россия Абонемент ($m)

Пример реализации считывания данных с PDF-файла на примере счета-фактуры. Обработку можно подключить к любой конфигурации, т.к. она не затрагивает метаданные.

1 стартмани

05.02.2026    455    6    user213093test    0    

3

Распознавание документов и образов Программист Пользователь 1С 8.3 1С:Розница 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление нашей фирмой 3.0 1С:Розница 3.0 Абонемент ($m)

Управление 1С голосом (в любой конфигурации), преобразование голоса в текст в текстовых реквизитах форм, в полях ввода с поиском по значению реквизита и т.д. и т.п.

2 стартмани

19.12.2025    2537    7    kras_71    24    

12

Распознавание документов и образов Программист Пользователь 1С:Предприятие 8 Россия Абонемент ($m)

Решение на платформе 1С для автоматической расшифровки голосовых сообщений из Telegram. Система отслеживает новые аудио в чат-боте, передает их на локальный сервер с Whisper для преобразования в текст и автоматически возвращает готовую транскрипцию обратно в чат. Должна работать на любой конфигурации 1С. Пригодится для энтузиастов и разработчиков интеграций 1С и ИИ.

1 стартмани

25.11.2025    957    3    marat987654321    3    

3

Нейросети Распознавание документов и образов Программист 1С:Предприятие 8 Россия Абонемент ($m)

Статья описывает практический подход к автоматизации сравнения документов с применением технологий OCR и локальных языковых моделей. Рассматриваются этапы настройки и интеграции Tesseract OCR, LM Studio и внешней обработки 1С для создания автономного решения.

1 стартмани

20.11.2025    3757    prokhodolya    5    

19
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Luis-Gomer 61 03.04.24 17:09 Сейчас в теме
Спасибо, всегда интересны подобные изыскания.
4. Indgo 433 03.04.24 23:32 Сейчас в теме
(1)спасибо за отзыв+
2. siamagic 03.04.24 20:51 Сейчас в теме
Шикарная работа!
EvgeniyOlxovskiy; +1 Ответить
3. Indgo 433 03.04.24 23:32 Сейчас в теме
5. Red1 25 04.04.24 09:25 Сейчас в теме
Круто заморочились...
6. starik-2005 3213 04.04.24 11:05 Сейчас в теме
"зафиксирован ход фашистичный кабинет" - эт прям шодевр!
zqzq; Indgo; +2 Ответить
11. Indgo 433 04.04.24 15:25 Сейчас в теме
(6) тут я использовал модель medium. В модели large - чуть получше м в 4 раза дольше.
7. DENSKR 15 04.04.24 13:48 Сейчас в теме
А где продолжение разговора со службой безопасности?
13. Indgo 433 04.04.24 15:50 Сейчас в теме
(7) на скриншот не влезло ;-)
8. John_d 6090 04.04.24 13:52 Сейчас в теме
Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Получается нужно выделять специальный компьютер с видеокартой для этих целей.
10. Indgo 433 04.04.24 15:18 Сейчас в теме
9. SerVer1C 1032 04.04.24 14:28 Сейчас в теме
Юзал для распознавания голоса оффлайн движок "vosk". На процессоре (без видеокарты) скорость была 5,8x, т.е. для распознавания 5,8 мин аудио требуется 1 мин времени обработки.
Если распараллелить на 8 потоков, то уже коэффициент получается 28,7x (1 час аудио распознается за 2 мин).
Ну и полная модель загружается в память за 2,5 мин.
Движок может задействовать видеокарты NVidia (но не Nvidea)
Если интересно, ставьте под комментом лайки, может напишу про это статью.
Menmo; Prometeus2011; mrsmrv; wonderboy; headMade; Indgo; +6 Ответить
12. Indgo 433 04.04.24 15:32 Сейчас в теме
(9) поверьте Vosk на порядок слабее чем ai whisper на gpu. Раньше я его использовал, когда не было whisper. Vosk кстати можно было заставить работать тна cuda. Но для этого не одну ночь приходилось дипендненсы подгонять.
Для отправки сообщения требуется регистрация/авторизация