Распознавание речи с помощью Open AI(cuda) без сторонних сервисов

02.04.24

Интеграция - Распознавание документов и образов

В данной статье мы рассмотрим пример, как можно улучшить CRM с клиентами, загружая записанные разговоры из ATC Astrrisk (или любыми аналогичными, умеющими записывать переговоры). Для этого мы будем использовать мощные инструменты от Open AI Whisper.

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Расширение Распознавание речи с помощью Open AI(cuda) для УТ 11. УХ, ERP
.cfe 25,65Kb
6
6 Скачать (1 SM) Купить за 1 850 руб.
Внешняя обработка Распознавание речи с помощью Open AI(cuda) для УТ11, ERP, УХ
.epf 8,14Kb
5
5 Скачать (1 SM) Купить за 1 850 руб.

Плюс данной технологии заключается в том, что мы будем вести обработку перс данных на нашем личном сервере без передачи данных на какие-то "облачные сервера". При этом нам не придется платить за услуги распознавания.

Минусом является то, что даже самый мощный CPU будет довольно долго обрабатывать часы переговоров с клиентами. Для этого нам понадобится отдельная машина (CPU 8 ядер и выше). Видеокарта Nvidea: минимум я рекомендую видеокарты GTX 1080ti. Я же использую RTX 3090 из-за того, что на ней 24gb видеопамяти. С ней один час переговоров конвертируется за примерно за 12-15 секунд. GTX 1080ti будет обрабатывать примерно 1 час за 40-60 секунд.

Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Итак, что мы имеем на входе: на входе мы имеем гигабайты переговоров, записанных на миниАТС, Астерикс, которые имеют названия 2024013401_84959260954.wav, где в начале идет дата, далее номер телефона, ну и, конечно же, сама запись в формате wav.

Наша задача:

1. Распознать текст переговоров 

2. Распарcить его в HTML

3. Загрузить ее в 1С. Для теста я использую УТ, но тут можно и CRM, УХ, ERP и т.п.

Для этого мы находим клиента по номеру телефона в контактах.

На выходе мы должны получить такой вот результат 

1. Регистрируется входящий звонок:

 

 

Внутрь помещается наш распознанный текст переговоров

 

 

Ну а теперь давайте рассмотрим, как это реализовать.

1. Устанавливаем на подготовленную машину с видеокартой Python 3.11 (рекомендуется) Windows.

Обязательно установим галочку python path. Если не установить, то будет весело

2. Далее скачиваем совместную разработку с братом, доработанную для работы с 1С, с github. https://github.com/magican82/voice_to_html

Все аудиозаписи должны помещаться в папку WAV. 

Я лично закачиваю с помощью bat файла, забираю их с ftp АТС Астерикс.

3. Устанавливаем Open AI Whisper https://github.com/openai/whisper. Это, я думаю, самый сложный пункт, но я думаю, разберетесь. В самом репозитарии имеется readme.

4. Теперь установим https://github.com/pyannote/pyannote-audio. Тут рекомендую установить версию 3.0, а не 3.11, если не хотите заморачиваться с регистрацией токенов и т.п.

5. Накатываете расширение за один инфомани. В самом расширении указываете путь с общей папкой, куда вы скачали и установили python модуль из пункта 2.

 

 

6. Теперь скачиваете обработку в описании за 1 инфомани.

7. Если все прошло успешно, запускаете командную строку с папки, куда установили Python модуль "voice_to_html"

cd C:\python\voicercognition
python convert_html.py
C:\Program Files (x86)\1cv8\8.3.5.хххх\bin\1cv8.exe» ENTERPRISE /DisableStartupMessages /FС:\путь к базе /N»ИмяПользователя» /P»ПарольПользователя» /Execute с:\путь к обработке\самаобработка.epf

Данную команду следует установить в шедуллер и запускать с регулярностью раз в час и т.п.

Как мы видим, сначала запускается pyhon модуль и делает из звука html файл. 

Далее запускается 1С обработка и загружает html файлы в систему взаимодействий 1С и создает документы "ТелефонныйЗвонок" с признаком входящий вызов.

На данный момент дописываю доработку таким образом, чтобы могла идентифицировать автора по ключевому идентификатору.

Всем спасибо.

Тесты проводились на платформе 1С:Предприятие 8.3 (8.3.23.2137).

См. также

SALE! 30%

Загрузка и выгрузка в Excel Документооборот и делопроизводство (СЭД) Учет документов Распознавание документов и образов Бухгалтер Пользователь Управляемые формы 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Розница 2 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление холдингом 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Бухгалтерский учет Управленческий учет Платные (руб)

Универсальная программа для распознавания сканов или фото товарных документов в 1С. Не требует указания параметров и предварительной настройки. Просто выбираете файл (PDF, JPG, DOC, XLS, HTML) выбираете документ 1С и нажимаете кнопку "Распознать и загрузить".

8400 5880 руб.

04.06.2019    110412    322    175    

331

Распознавание документов и образов Периферийные устройства Программист Автомобили, автосервисы Россия Платные (руб)

Программа считывает кадры с ip-камер (http - запрос к камере), видео, фото (источники кадров (нет ограничения на их количество) настраивается в конфигурационном файле), находит и распознает номера автомашин и сохраняет в базу db, с сохранением фото номера и автомашины, а также времени детекции.

20400 руб.

31.05.2023    5466    4    4    

9

SALE! 30%

Учет документов Распознавание документов и образов Бухгалтер Пользователь Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Россия Платные (руб)

Одна из наиболее удобных обработок автоматического прикрепления большого количества документов-оригиналов к документам 1С. Для файлов поточного сканирования автоматически определяются начало и конец каждого документа. Поддерживаются штрихкоды, QR-коды, отсканированные PDF документы без штрихкодов, сформированные в ЭДО текстовые PDF документы. Поддерживаются входящие и исходящие документы-оригиналы.

6480 руб.

23.12.2021    13702    19    25    

10

Нейросети Распознавание документов и образов Программист Пользователь Платформа 1С v8.3 Россия Абонемент ($m)

Уникальное расширение для автоматического распознавания текста и анализа изображений прямо в интерфейсе любой типовой конфигурации 1С:Предприятие. Автоматически извлекает данные с фотографий документов, поддерживает рукописный текст и формирует подробные описания изображений с помощью популярных моделей ИИ.

10 стартмани

26.03.2025    277    4    Prepod2003    0    

4

Распознавание документов и образов Программист Пользователь Платформа 1С v8.3 Россия Абонемент ($m)

Внешняя обработка 1С использует API для распознавания текста с изображений (до 25 000 в месяц), поддерживает загрузку файлов с диска и HTTP-запросов, а результат можно автоматически обрабатывать и интегрировать в 1С.

1 стартмани

20.03.2025    396    2    mrKHrom    3    

7

Распознавание документов и образов Нейросети Программист Платформа 1С v8.3 Абонемент ($m)

ИИ разработчик это не тот, кто не умеет писать код без ИИ помощника. Отличие ИИ разработчика от обычного разработчика не столь уж велико. Но есть один важный нюанс. На простом примере постараюсь вам его продемонстрировать.

1 стартмани

27.02.2025    2675    mkalimulin    21    

17

Распознавание документов и образов Программист Платформа 1С v8.3 Абонемент ($m)

В последнее время у меня возникла необходимость в распознавании текста из изображений и PDF-документов. Данный вариант распознавания текста предлагается как альтернатива традиционным OCR-сервисам. Возможно, кому то данная статья будет полезна. Сравнивал между собой два сервиса Google Cloud Vision и Yandex Vision. Сразу скажу, что результат распознавания рукописного текста не удовлетворил, поэтому искал другие возможности. В процессе поиска альтернатив я обратил внимание на одну интересную возможность, которую предлагает Google Docs. Если загрузить изображение в Google Документы, сервис автоматически добавляет распознанный текст под изображением. Качество меня приятно удивило — текст извлекался даже из рукописных записей!

1 стартмани

24.02.2025    1215    SERG326    0    

15

Нейросети Распознавание документов и образов Программист Платформа 1С v8.3 Отраслевые Бесплатно (free)

Пример использования механизма голосового распознавания платформы 1С: Предприятия на примере Демоприложения речевого распознавания от 1С с примером добавленной библиотеки ИИ от Михаила Калимулина с интегрированным голосовым управлением для формирования текста запроса к ИИ.

07.02.2025    628    32    m_aster    3    

6
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Luis-Gomer 58 03.04.24 17:09 Сейчас в теме
Спасибо, всегда интересны подобные изыскания.
4. Indgo 420 03.04.24 23:32 Сейчас в теме
2. siamagic 03.04.24 20:51 Сейчас в теме
Шикарная работа!
EvgeniyOlxovskiy; +1 Ответить
3. Indgo 420 03.04.24 23:32 Сейчас в теме
5. Red1 25 04.04.24 09:25 Сейчас в теме
Круто заморочились...
6. starik-2005 3167 04.04.24 11:05 Сейчас в теме
"зафиксирован ход фашистичный кабинет" - эт прям шодевр!
zqzq; Indgo; +2 Ответить
11. Indgo 420 04.04.24 15:25 Сейчас в теме
(6) тут я использовал модель medium. В модели large - чуть получше м в 4 раза дольше.
7. DENSKR 16 04.04.24 13:48 Сейчас в теме
А где продолжение разговора со службой безопасности?
13. Indgo 420 04.04.24 15:50 Сейчас в теме
(7) на скриншот не влезло ;-)
8. John_d 5985 04.04.24 13:52 Сейчас в теме
Если нет видеокарты, то 1 час конвертится - 3-20 часов.

Получается нужно выделять специальный компьютер с видеокартой для этих целей.
10. Indgo 420 04.04.24 15:18 Сейчас в теме
9. SerVer1C 882 04.04.24 14:28 Сейчас в теме
Юзал для распознавания голоса оффлайн движок "vosk". На процессоре (без видеокарты) скорость была 5,8x, т.е. для распознавания 5,8 мин аудио требуется 1 мин времени обработки.
Если распараллелить на 8 потоков, то уже коэффициент получается 28,7x (1 час аудио распознается за 2 мин).
Ну и полная модель загружается в память за 2,5 мин.
Движок может задействовать видеокарты NVidia (но не Nvidea)
Если интересно, ставьте под комментом лайки, может напишу про это статью.
Menmo; Prometeus2011; mrsmrv; wonderboy; headMade; Indgo; +6 Ответить
12. Indgo 420 04.04.24 15:32 Сейчас в теме
(9) поверьте Vosk на порядок слабее чем ai whisper на gpu. Раньше я его использовал, когда не было whisper. Vosk кстати можно было заставить работать тна cuda. Но для этого не одну ночь приходилось дипендненсы подгонять.
Оставьте свое сообщение