Распознавание речи с помощью Open AI(cuda) без сторонних сервисов

02.04.24

Интеграция - Распознавание документов и образов

В данной статье мы рассмотрим пример, как можно улучшить CRM с клиентами, загружая записанные разговоры из ATC Astrrisk (или любыми аналогичными, умеющими записывать переговоры). Для этого мы будем использовать мощные инструменты от Open AI Whisper.

Файлы

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование Скачано Купить файл
Расширение Распознавание речи с помощью Open AI(cuda) для УТ 11. УХ, ERP
.cfe 25,65Kb
7 2 500 руб. Купить
Внешняя обработка Распознавание речи с помощью Open AI(cuda) для УТ11, ERP, УХ
.epf 8,14Kb
5 2 500 руб. Купить

Подписка PRO — скачивайте любые файлы со скидкой до 85% из Базы знаний

Оформите подписку на компанию для решения рабочих задач

Оформить подписку и скачать решение со скидкой

Плюс данной технологии заключается в том, что мы будем вести обработку перс данных на нашем личном сервере без передачи данных на какие-то "облачные сервера". При этом нам не придется платить за услуги распознавания.

Минусом является то, что даже самый мощный CPU будет довольно долго обрабатывать часы переговоров с клиентами. Для этого нам понадобится отдельная машина (CPU 8 ядер и выше). Видеокарта Nvidea: минимум я рекомендую видеокарты GTX 1080ti. Я же использую RTX 3090 из-за того, что на ней 24gb видеопамяти. С ней один час переговоров конвертируется за примерно за 12-15 секунд. GTX 1080ti будет обрабатывать примерно 1 час за 40-60 секунд.

Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Итак, что мы имеем на входе: на входе мы имеем гигабайты переговоров, записанных на миниАТС, Астерикс, которые имеют названия 2024013401_84959260954.wav, где в начале идет дата, далее номер телефона, ну и, конечно же, сама запись в формате wav.

Наша задача:

1. Распознать текст переговоров 

2. Распарcить его в HTML

3. Загрузить ее в 1С. Для теста я использую УТ, но тут можно и CRM, УХ, ERP и т.п.

Для этого мы находим клиента по номеру телефона в контактах.

На выходе мы должны получить такой вот результат 

1. Регистрируется входящий звонок:

 

 

Внутрь помещается наш распознанный текст переговоров

 

 

Ну а теперь давайте рассмотрим, как это реализовать.

1. Устанавливаем на подготовленную машину с видеокартой Python 3.11 (рекомендуется) Windows.

Обязательно установим галочку python path. Если не установить, то будет весело

2. Далее скачиваем совместную разработку с братом, доработанную для работы с 1С, с github. https://github.com/magican82/voice_to_html

Все аудиозаписи должны помещаться в папку WAV. 

Я лично закачиваю с помощью bat файла, забираю их с ftp АТС Астерикс.

3. Устанавливаем Open AI Whisper https://github.com/openai/whisper. Это, я думаю, самый сложный пункт, но я думаю, разберетесь. В самом репозитарии имеется readme.

4. Теперь установим https://github.com/pyannote/pyannote-audio. Тут рекомендую установить версию 3.0, а не 3.11, если не хотите заморачиваться с регистрацией токенов и т.п.

5. Накатываете расширение за один инфомани. В самом расширении указываете путь с общей папкой, куда вы скачали и установили python модуль из пункта 2.

 

 

6. Теперь скачиваете обработку в описании за 1 инфомани.

7. Если все прошло успешно, запускаете командную строку с папки, куда установили Python модуль "voice_to_html"

cd C:\python\voicercognition
python convert_html.py
C:\Program Files (x86)\1cv8\8.3.5.хххх\bin\1cv8.exe» ENTERPRISE /DisableStartupMessages /FС:\путь к базе /N»ИмяПользователя» /P»ПарольПользователя» /Execute с:\путь к обработке\самаобработка.epf

Данную команду следует установить в шедуллер и запускать с регулярностью раз в час и т.п.

Как мы видим, сначала запускается pyhon модуль и делает из звука html файл. 

Далее запускается 1С обработка и загружает html файлы в систему взаимодействий 1С и создает документы "ТелефонныйЗвонок" с признаком входящий вызов.

На данный момент дописываю доработку таким образом, чтобы могла идентифицировать автора по ключевому идентификатору.

Всем спасибо.

Тесты проводились на платформе 1С:Предприятие 8.3 (8.3.23.2137).

Вступайте в нашу телеграмм-группу Инфостарт

См. также

Учет документов Распознавание документов и образов Бухгалтер Пользователь 1С:Предприятие 8 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Россия Платные (руб)

Одна из наиболее удобных обработок автоматического прикрепления большого количества документов-оригиналов к документам 1С. Для файлов поточного сканирования автоматически определяются начало и конец каждого документа. Поддерживаются штрихкоды, QR-коды, отсканированные PDF документы без штрихкодов, сформированные в ЭДО текстовые PDF документы. Поддерживаются входящие и исходящие документы-оригиналы.

6588 руб.

23.12.2021    15969    30    25    

12

SALE! 30%

Распознавание документов и образов Программист Пользователь 1С 8.3 1С:Бухгалтерия 3.0 Россия Абонемент ($m)

Тестируем, как ИИ распознает разные pdf, и результат пробуем запихнуть в документы 1С... Нужна установленная LM Studio и видеокарта. На 1660 супер работает так себе (по скорости). На 3070 уже бодрее. На 50 серии пока не тестировал. Распознавание 1 страницы (секунд 10-40). Из пдф картинка делается, и она уже отдается ИИ. Поэтому в обработке преобразователь картинок. При первом запуске положится сам в темпы. Писал для себя - в коде полный бардак - т.к. хотелось быстрее. Но все пашет и в файловой, и на серверах.

2 стартмани

13.03.2026    290    2    PORGY3000    6    

3

Нейросети Распознавание документов и образов Программист Бухгалтер Пользователь 1С 8.3 1С:Комплексная автоматизация 1.х 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Россия Абонемент ($m)

Решение поставляется в 2 версиях: при наличии видеокарты расширение+GPU версия или расширение+СPU версия. Поддерживает 3 режима работы, локальное (на вашем ПК), ИИ-модель (облачная), гибридная локальная+ИИ. В локальном режиме распознавание бесплатно. В ИИ режиме в среднем 0.5 рубля за страницу. Неограниченное количество пользователей. Распознает сканы: УПД, счета-фактуры, товарные накладные. Проверяет цифры и помогает создавать документы в 1С. Отправляйте документы через Telegram бот

10 стартмани

20.02.2026    637    1    dasan92    0    

3

Распознавание документов и образов Программист 1С 8.3 Бесплатно (free)

Рано или поздно каждый 1С-специалист может столкнуться с фактически нерешаемой задачей: организацией загрузки из файла контрагента, где данные предлагается синхронизировать по строке, например, наименованию номенклатуры. Зачастую это строковое представление лишь отдаленно напоминает наименование из соответствующего справочника информационной базы заказчика. То есть фактически контрагент произвольно излагает своё желание, а заказчик требует автоматизировать процесс сопоставления. Надо понимать, что 100% решения задачи не существует. Например, если при анализе примеров стало понятно, что клиентам несвойственна грамотность, лучше вообще не браться за такую автоматизацию. Тем не менее, задачу сопоставления строки из последовательности слов с наименованиями из справочника, где порядок слов может различаться, автору удалось решить в приемлемом для заказчика виде. Предлагаются формулировка условий задачи и подходы к реализации решения

09.02.2026    443    Sergey1CSpb    0    

1

Распознавание документов и образов Бухгалтер Пользователь 1С 8.3 1С:Бухгалтерия 3.0 Россия Абонемент ($m)

Пример реализации считывания данных с PDF-файла на примере счета-фактуры. Обработку можно подключить к любой конфигурации, т.к. она не затрагивает метаданные.

1 стартмани

05.02.2026    507    6    user213093test    0    

3

Распознавание документов и образов Программист Пользователь 1С 8.3 1С:Розница 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление нашей фирмой 3.0 1С:Розница 3.0 Абонемент ($m)

Управление 1С голосом (в любой конфигурации), преобразование голоса в текст в текстовых реквизитах форм, в полях ввода с поиском по значению реквизита и т.д. и т.п.

2 стартмани

19.12.2025    2623    7    kras_71    24    

12
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Luis-Gomer 63 03.04.24 17:09 Сейчас в теме
Спасибо, всегда интересны подобные изыскания.
4. Indgo 433 03.04.24 23:32 Сейчас в теме
(1)спасибо за отзыв+
2. siamagic 03.04.24 20:51 Сейчас в теме
Шикарная работа!
EvgeniyOlxovskiy; +1 Ответить
3. Indgo 433 03.04.24 23:32 Сейчас в теме
5. Red1 25 04.04.24 09:25 Сейчас в теме
Круто заморочились...
6. starik-2005 3213 04.04.24 11:05 Сейчас в теме
"зафиксирован ход фашистичный кабинет" - эт прям шодевр!
zqzq; Indgo; +2 Ответить
11. Indgo 433 04.04.24 15:25 Сейчас в теме
(6) тут я использовал модель medium. В модели large - чуть получше м в 4 раза дольше.
7. DENSKR 15 04.04.24 13:48 Сейчас в теме
А где продолжение разговора со службой безопасности?
13. Indgo 433 04.04.24 15:50 Сейчас в теме
(7) на скриншот не влезло ;-)
8. John_d 6092 04.04.24 13:52 Сейчас в теме
Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Получается нужно выделять специальный компьютер с видеокартой для этих целей.
10. Indgo 433 04.04.24 15:18 Сейчас в теме
9. SerVer1C 1055 04.04.24 14:28 Сейчас в теме
Юзал для распознавания голоса оффлайн движок "vosk". На процессоре (без видеокарты) скорость была 5,8x, т.е. для распознавания 5,8 мин аудио требуется 1 мин времени обработки.
Если распараллелить на 8 потоков, то уже коэффициент получается 28,7x (1 час аудио распознается за 2 мин).
Ну и полная модель загружается в память за 2,5 мин.
Движок может задействовать видеокарты NVidia (но не Nvidea)
Если интересно, ставьте под комментом лайки, может напишу про это статью.
Menmo; Prometeus2011; mrsmrv; wonderboy; headMade; Indgo; +6 Ответить
12. Indgo 433 04.04.24 15:32 Сейчас в теме
(9) поверьте Vosk на порядок слабее чем ai whisper на gpu. Раньше я его использовал, когда не было whisper. Vosk кстати можно было заставить работать тна cuda. Но для этого не одну ночь приходилось дипендненсы подгонять.
Для отправки сообщения требуется регистрация/авторизация