Распознавание речи с помощью Open AI(cuda) без сторонних сервисов

02.04.24

Интеграция - Распознавание документов и образов

В данной статье мы рассмотрим пример, как можно улучшить CRM с клиентами, загружая записанные разговоры из ATC Astrrisk (или любыми аналогичными, умеющими записывать переговоры). Для этого мы будем использовать мощные инструменты от Open AI Whisper.

Скачать исходный код

Наименование Файл Версия Размер
Расширение Распознавание речи с помощью Open AI(cuda) для УТ 11. УХ, ERP
.cfe 25,65Kb
4
.cfe 25,65Kb 4 Скачать
Внешняя обработка Распознавание речи с помощью Open AI(cuda) для УТ11, ERP, УХ
.epf 8,14Kb
2
.epf 8,14Kb 2 Скачать

Плюс данной технологии заключается в том, что мы будем вести обработку перс данных на нашем личном сервере без передачи данных на какие-то "облачные сервера". При этом нам не придется платить за услуги распознавания.

Минусом является то, что даже самый мощный CPU будет довольно долго обрабатывать часы переговоров с клиентами. Для этого нам понадобится отдельная машина (CPU 8 ядер и выше). Видеокарта Nvidea: минимум я рекомендую видеокарты GTX 1080ti. Я же использую RTX 3090 из-за того, что на ней 24gb видеопамяти. С ней один час переговоров конвертируется за примерно за 12-15 секунд. GTX 1080ti будет обрабатывать примерно 1 час за 40-60 секунд.

Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Итак, что мы имеем на входе: на входе мы имеем гигабайты переговоров, записанных на миниАТС, Астерикс, которые имеют названия 2024013401_84959260954.wav, где в начале идет дата, далее номер телефона, ну и, конечно же, сама запись в формате wav.

Наша задача:

1. Распознать текст переговоров 

2. Распарcить его в HTML

3. Загрузить ее в 1С. Для теста я использую УТ, но тут можно и CRM, УХ, ERP и т.п.

Для этого мы находим клиента по номеру телефона в контактах.

На выходе мы должны получить такой вот результат 

1. Регистрируется входящий звонок:

 

 

Внутрь помещается наш распознанный текст переговоров

 

 

Ну а теперь давайте рассмотрим, как это реализовать.

1. Устанавливаем на подготовленную машину с видеокартой Python 3.11 (рекомендуется) Windows.

Обязательно установим галочку python path. Если не установить, то будет весело

2. Далее скачиваем совместную разработку с братом, доработанную для работы с 1С, с github. https://github.com/magican82/voice_to_html

Все аудиозаписи должны помещаться в папку WAV. 

Я лично закачиваю с помощью bat файла, забираю их с ftp АТС Астерикс.

3. Устанавливаем Open AI Whisper https://github.com/openai/whisper. Это, я думаю, самый сложный пункт, но я думаю, разберетесь. В самом репозитарии имеется readme.

4. Теперь установим https://github.com/pyannote/pyannote-audio. Тут рекомендую установить версию 3.0, а не 3.11, если не хотите заморачиваться с регистрацией токенов и т.п.

5. Накатываете расширение за один инфомани. В самом расширении указываете путь с общей папкой, куда вы скачали и установили python модуль из пункта 2.

 

 

6. Теперь скачиваете обработку в описании за 1 инфомани.

7. Если все прошло успешно, запускаете командную строку с папки, куда установили Python модуль "voice_to_html"

cd C:\python\voicercognition
python convert_html.py
C:\Program Files (x86)\1cv8\8.3.5.хххх\bin\1cv8.exe» ENTERPRISE /DisableStartupMessages /FС:\путь к базе /N»ИмяПользователя» /P»ПарольПользователя» /Execute с:\путь к обработке\самаобработка.epf

Данную команду следует установить в шедуллер и запускать с регулярностью раз в час и т.п.

Как мы видим, сначала запускается pyhon модуль и делает из звука html файл. 

Далее запускается 1С обработка и загружает html файлы в систему взаимодействий 1С и создает документы "ТелефонныйЗвонок" с признаком входящий вызов.

На данный момент дописываю доработку таким образом, чтобы могла идентифицировать автора по ключевому идентификатору.

Всем спасибо.

Тесты проводились на платформе 1С:Предприятие 8.3 (8.3.23.2137).

См. также

SALE! 30%

Распознавание и загрузка сканов в 1С "одним нажатием": УПД, ТОРГ-12, накладные, счета, номенклатура, заказы и т.д.

Загрузка и выгрузка в Excel Документооборот и делопроизводство (СЭД) Учет документов Распознавание документов и образов Управляемые формы 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Розница 2 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление холдингом 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Бухгалтерский учет Управленческий учет Платные (руб)

Универсальная программа для распознавания ЛЮБЫХ СКАНОВ ИЛИ ФОТО ТОВАРНЫХ ДОКУМЕНТОВ в 1С. Не требует указания параметров и предварительной настройки. Просто выбираете файл (PDF, JPG, DOC, XLS, HTML и т.д.) выбираете документ 1С и нажимаете кнопку "Распознать и загрузить".

6000 5520 руб.

04.06.2019    101720    297    173    

314

Распознавание номеров автомашин с ip - камер, видео, фото

Распознавание документов и образов Периферийные устройства Автомобили, автосервисы Россия Платные (руб)

Программа считывает кадры с ip-камер (http - запрос к камере), видео, фото (источники кадров (нет ограничения на их количество) настраивается в конфигурационном файле), находит и распознает номера автомашин и сохраняет в базу db, с сохранением фото номера и автомашины, а также времени детекции.

20400 руб.

31.05.2023    3906    3    1    

4

Когда много сканов: Автоматическое прикрепление сканированных документов

Учет документов Распознавание документов и образов Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Россия Платные (руб)

Обработка экономит время, распознавая и прикрепляя сканированные оригиналы документов к документам в 1С. Поддерживаются штрихкоды, QR-коды, отсканированные PDF документы без штрихкодов, полученные в результате потокового сканирования PDF документы, сформированные в ЭДО PDF документы.

6480 руб.

23.12.2021    12200    7    24    

7

Распознавание BarCode Web-камерой и передача данных в 1С

Сканер штрих-кода Распознавание документов и образов Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Абонемент ($m)

Программа позволяет распознать графический код посредством USB Web-камеры и записать результат в буфер обмена. Впоследствии его можно прочитать средствами 1С.

6 стартмани

26.01.2024    666    1    alexkozin    0    

0

Полностью голосовое управление учетной системой. Вести из лаборатории

Нейросети Мессенджеры и боты Распознавание документов и образов Бесплатно (free)

Под голосовым вводом я понимаю не просто проговаривание в микрофон заранее запрограммированных команд. А настоящий голосовой ввод. Когда пользователь говорит, что ему нужно в свободном формате, на естественном языке. Можно ли сделать на этом полноценную учетную систему? Telegram, API и немного магии (GPT).

27.09.2023    1472    mkalimulin    14    

14

Распознавание паспорта РФ. Python+1С без сторонних сервисов

Распознавание документов и образов Платформа 1С v8.3 Конфигурации 1cv8 Россия Абонемент ($m)

В данной публикации мы рассмотрим методы разработки приложений на Python + 1С для распознавания Паспорта РФ.

1 стартмани

30.01.2023    13901    83    Indgo    41    

94
Комментарии
Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. Luis-Gomer 51 03.04.24 17:09 Сейчас в теме
Спасибо, всегда интересны подобные изыскания.
4. Indgo 362 03.04.24 23:32 Сейчас в теме
2. siamagic 03.04.24 20:51 Сейчас в теме
Шикарная работа!
EvgeniyOlxovskiy; +1 Ответить
3. Indgo 362 03.04.24 23:32 Сейчас в теме
5. Red1 23 04.04.24 09:25 Сейчас в теме
Круто заморочились...
6. starik-2005 3036 04.04.24 11:05 Сейчас в теме
"зафиксирован ход фашистичный кабинет" - эт прям шодевр!
zqzq; Indgo; +2 Ответить
11. Indgo 362 04.04.24 15:25 Сейчас в теме
(6) тут я использовал модель medium. В модели large - чуть получше м в 4 раза дольше.
7. DENSKR 15 04.04.24 13:48 Сейчас в теме
А где продолжение разговора со службой безопасности?
13. Indgo 362 04.04.24 15:50 Сейчас в теме
(7) на скриншот не влезло ;-)
8. John_d 5395 04.04.24 13:52 Сейчас в теме
Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Получается нужно выделять специальный компьютер с видеокартой для этих целей.
10. Indgo 362 04.04.24 15:18 Сейчас в теме
9. SerVer1C 750 04.04.24 14:28 Сейчас в теме
Юзал для распознавания голоса оффлайн движок "vosk". На процессоре (без видеокарты) скорость была 5,8x, т.е. для распознавания 5,8 мин аудио требуется 1 мин времени обработки.
Если распараллелить на 8 потоков, то уже коэффициент получается 28,7x (1 час аудио распознается за 2 мин).
Ну и полная модель загружается в память за 2,5 мин.
Движок может задействовать видеокарты NVidia (но не Nvidea)
Если интересно, ставьте под комментом лайки, может напишу про это статью.
mrsmrv; wonderboy; headMade; Indgo; +4 Ответить
12. Indgo 362 04.04.24 15:32 Сейчас в теме
(9) поверьте Vosk на порядок слабее чем ai whisper на gpu. Раньше я его использовал, когда не было whisper. Vosk кстати можно было заставить работать тна cuda. Но для этого не одну ночь приходилось дипендненсы подгонять.
Оставьте свое сообщение