Развертывание Docker с Flask + Tesseract и взаимодействие с 1С: Документооборот на примере версии 1.4

20.08.24

Разработка - DevOps и автоматизация разработки

В данной инструкции рассмотрим процесс развертывания приложения на Python с использованием фреймворка Flask и Tesseract OCR в контейнере Docker. Узнаем, как использовать Tesseract в связке с Flask и осуществлять обращения к Tesseract для обработки изображений. Рассмотрим пример обращения к приложению Docker из 1С, в том числе для замещения CuneiForm в старых конфигурациях 1С:Документооборот версии 1.4 и ниже.

Развертывание Docker с Flask + Tesseract и взаимодействие с 1С: Документооборот на примере версии 1.4

В данной инструкции рассмотрим процесс развертывания приложения на Python с использованием фреймворка Flask и Tesseract OCR в контейнере Docker. Узнаем, как использовать Tesseract в связке с Flask и осуществлять обращения к Tesseract для обработки изображений. Рассмотрим пример обращения к приложению Docker из 1С.

 

Разворачивание приложения

 

Установка Docker

Прежде всего, убедитесь, что у вас установлен Docker. Вы можете скачать и установить его с официального сайта Docker). После установки проверьте, что Docker работает, выполнив команду:

docker --version

 

Создание проекта Flask

Клонируйте репозиторий:

git clone https://gitverse.ru/dgmcomru/imagemagick.git

Перейдите в каталог:

cd imagemagick

Убедитесь, что структура каталогов выглядит так:

ls

Результат:

<DIR>   doc
<DIR>   src
        docker-compose.yaml
        Dockerfile
        README.md
        РаспознаваниеPDF.epf

В каталоге src располагаются модули Python: main.py, skew.py

 

Построение Docker-образа

Теперь мы можем построить наш Docker-образ. Выполните следующую команду:

docker-compose build prod

 

Запуск Docker-контейнера

После успешной сборки образа выполните команду для создания и запуска контейнера:

docker-compose up prod

 

Проверка доступности приложения, запущенного в Docker-контейнере

Теперь вы можете открыть браузер и перейти по адресу http://localhost:5000, где вы увидите сообщение "OCR system enable". Приложение доступно, можем двигаться дальше.

 

Проверка извлечения текста

Теперь вы можете отправлять изображения на обработку в Tesseract через ваше Flask-приложение, используя POST-запрос на /upload с файлом изображения. Например, вы можете использовать curl:

curl -X POST http://localhost:5000/upload -F "image=@path_to_image_file.png"

Если всё настроено правильно, вы получите текст, распознанный Tesseract, в ответе.

 

Использование Docker-приложения в прикладном решении 1С: Документооборот

Протестировано в версии 1С:Документооборота 1.4.11.2.

Обращение к приложению Docker из 1С, передача файла в метод http://localhost:5000/upload для распознавания

Рассмотрим основные - важные процедуры реализующие обращения к приложению Docker для детального понимания реализации

&НаСервереБезКонтекста
Функция РаспознатьНаВнешнемРесурсе(ВерсияСсылка)
    СодержимоеФайла = ПолучитьСодержимоеФайла(ВерсияСсылка, Ложь);
    РезультатСервера = "";
    Если ТипЗнч(СодержимоеФайла) = Тип("ДвоичныеДанные") Тогда
        HTTPСерверРаспознавания = ОбщегоНазначения.ХранилищеОбщихНастроекЗагрузить("АвтоматическоеРаспознаваниеИзображений", "HTTPСерверРаспознавания",,,"Администратор");
        Соединение = Новый HTTPСоединение(HTTPСерверРаспознавания);
        ЗапросСервера = Новый HTTPЗапрос("/upload");
        ЗапросСервера.УстановитьТелоИзДвоичныхДанных(СодержимоеФайла);
        ОтветСервера = Соединение.ВызватьHTTPМетод("POST", ЗапросСервера);
        РезультатСервера = ОтветСервера.ПолучитьТелоКакСтроку(КодировкаТекста.UTF8);
    КонецЕсли;  
    Возврат РезультатСервера;
КонецФункции

 

Вызов процедуры распознавания на сервере

&НаСервереБезКонтекста
Процедура РаспознаваниеИзображений() Экспорт

        ПроверитьДоступностьВнешнегоРесурса();

        Если НЕ РаспознаваниеВключено() Тогда
            ЗаписьЖурналаРегистрацииСервер(НСтр("ru = 'Распознавание отключено, включите или остановите регламентное задание.'"),);        
            Возврат;    
        КонецЕсли;

        УникальныйИдентификатор = Новый УникальныйИдентификатор;

        РазмерПорции = ОбщегоНазначения.ХранилищеОбщихНастроекЗагрузить("АвтоматическоеРаспознаваниеИзображений", "КоличествоФайловВПорции",,,"Администратор");

        Попытка

            РазмерПорцииТекущий = ?(РазмерПорции = Неопределено, 10, РазмерПорции);
            МассивВерсий = ПолучитьМассивВерсийДляРаспознавания(РазмерПорцииТекущий);

            Если МассивВерсий.Количество() = 0 Тогда

                Возврат;

            КонецЕсли;

            Для Индекс = 0 По МассивВерсий.Количество() - 1 Цикл

                //Проверим, если ВЫКлючили прервем цикл
                Если НЕ РаспознаваниеВключено() Тогда
                    Прервать;  
                КонецЕсли;

                ВерсияСсылка = МассивВерсий[Индекс];

                Попытка
                    СтруктураВозврата = РаботаСФайламиВызовСервера.ПолучитьДанныеФайлаИНавигационнуюСсылкуВерсииДляРаспознавания(ВерсияСсылка, УникальныйИдентификатор);
                    ДанныеФайла = СтруктураВозврата.ДанныеФайла;
                    АдресФайла = СтруктураВозврата.НавигационнаяСсылкаВерсии;
                    РасширениеФайлаРезультата = СтруктураВозврата.РасширениеФайлаРезультата;

                    Если ДанныеФайла.СтатусРаспознаванияТекста <> "НужноРаспознать" Тогда

                        Если ЭтоАдресВременногоХранилища(АдресФайла) Тогда
                              УдалитьИзВременногоХранилища(АдресФайла);
                        КонецЕсли;

                        Продолжить; // другой клиент уже обработал файл

                    КонецЕсли;  

                    РаспознанныйТекст = "";
                    СтрокаВозврата = "Успешно";
                    РаспознанныйТекст = РаспознатьНаВнешнемРесурсе(ВерсияСсылка);

                    Если Не ЗначениеЗаполнено(РаспознанныйТекст) Тогда

                        СтрокаВозврата = "Ошибка";
                        ЗаписьЖурналаРегистрацииСервер(нСтр("ru='Результат распознавания пустой'", "ru"), ВерсияСсылка);

                    КонецЕсли;  

                   ЗаписатьРезультатРаспознавания(ВерсияСсылка, СтрокаВозврата, Ложь, РаспознанныйТекст);

                Исключение

                    ИмяСРасширениемФайла = ФайловыеФункцииКлиентСервер.ПолучитьИмяСРасширением(ДанныеФайла.ПолноеНаименованиеВерсии, ДанныеФайла.Расширение);
                    ОписаниеОшибкиИнфо = ОписаниеОшибки();
                    ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                                        НСтр("ru = 'Во время распознавания изображения из файла ""%1"" произошла неизвестная ошибка.'"),
                                        ИмяСРасширениемФайла);
                    ТекстСообщения = ТекстСообщения + Строка(ОписаниеОшибкиИнфо);
                    ЗанестиИнформациюОбОшибкеРаспознавания(ВерсияСсылка, ТекстСообщения);      

                КонецПопытки;  

            КонецЦикла;

            ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                            НСтр("ru = 'Распознавание изображений завершено. Обработано файлов: %1'"),
                            МассивВерсий.Количество());

            ЗаписьЖурналаРегистрацииСервер(ТекстСообщения,);           
Исключение
            ОписаниеОшибкиИнфо = ОписаниеОшибки();
            ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                            НСтр("ru = 'Во время распознавания изображения из файла ""%1"" произошла неизвестная ошибка.'"), ИмяСРасширениемФайла);
                            ТекстСообщения = ТекстСообщения + Строка(ОписаниеОшибкиИнфо);
            ЗаписьЖурналаРегистрацииСервер(ТекстСообщения,);

        КонецПопытки;

КонецПроцедуры

 

Вызов процедуры распознавания с клиента

&НаКлиенте
Процедура РаспознатьВсе(Команда)
    РаспознаваниеВключено = Истина;
    ОбщегоНазначения.ХранилищеОбщихНастроекСохранить("АвтоматическоеРаспознаваниеИзображений", "РаспознаваниеВключено",  РаспознаваниеВключено,,"Администратор");
    КоличествоНераспознанныхФайловДоНачалаОперации = ПолучитьКоличествоНераспознанныхВерсий();
    РаспознаваниеИзображений();
    ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
    НСтр("ru='Завершено распознавание всех нераспознанных файлов. Обработано файлов: %1.'"), КоличествоНераспознанныхФайловДоНачалаОперации);
    ПоказатьПредупреждение(, ТекстСообщения);
КонецПроцедуры

 

Первый запуск обработки РаспознаваниеPDF.epf

Запустите обработку и нажмите кнопку Настройка. Определите адрес ресурса localhost:5000 или внешний servername:5000. Определите количество документов - pdf файлов в одном цикле.

Кнопка Старт разрешает отправку файлов для извлечения текста.

Кнопка Стоп запрещает отправку файлов для извлечения текста.

Кнопка Распознать все отправляет определенное количество документов для извлечения текста и записи результата в Справочник ВерсииФайлов

Пробуйте :)

Буду рад, если вы оцените этот проект и решите присоединиться к его развитию.

 

Проект в свободном доступе

Проект imagemagick на GitVerse

HTTP Docker Flask Tesseract OCR

См. также

DevOps для 1С DevOps и автоматизация разработки Программист Стажер Платные (руб)

Данный онлайн-курс (интенсив) предусматривает изучение процессов, инструментов и методик DevOps, их применение при разработке на платформе 1С. 

2500 руб.

20.06.2023    22919    21    4    

321

1С-программирование DevOps и автоматизация разработки Групповая разработка (Git, хранилище) DevOps для 1С Программист Стажер Платформа 1С v8.3 Платные (руб)

Использования систем контроля версий — стандарт современной разработки. На курсе научимся использованию Хранилища 1С и GIT при разработке на 1С:Предприятие 8. Разберем подходы и приемы коллективной разработки, научимся самостоятельно настраивать системы и ориентироваться в них.

4900 руб.

29.06.2022    12214    105    4    

137

DevOps и автоматизация разработки Тестирование QA Программист Пользователь Платформа 1С v8.3 1С:Зарплата и Управление Персоналом 3.x Россия Бухгалтерский учет Платные (руб)

Автотесты 1С - готовые тестовые сценарии, предназначенные для регресс-тестирования функционала конфигурации после обновления типовым релизом. Сценарии проверяют интерактивное заполнение форм документов, справочников и результат проведения документов. Сценарий – feature-файл, разработанный с помощью vanessa-automation. Запуск сценария выполняется интерактивно с помощью vanessa-automation или с помощью vanessa-runner в CI-системах. Доступно тестирование тонкого клиента. Поддерживаемые версии конфигураций 1С:Зарплата и Управление Персоналом 3 и версии КОРП: 3.1.30.57.

2160 руб.

05.08.2024    1425    15    1    

9

Тестирование QA DevOps и автоматизация разработки Программист Пользователь Платформа 1С v8.3 1С:Бухгалтерия 3.0 Россия Бухгалтерский учет Налоговый учет Платные (руб)

Автотесты 1С - готовые тестовые сценарии, предназначенные для регресс-тестирования функционала конфигурации после обновления типовым релизом. Сценарии проверяют интерактивное заполнение форм документов, справочников и результат проведения документов. Сценарий – feature-файл, разработанный с помощью vanessa-automation. Запуск сценария выполняется интерактивно с помощью vanessa-automation или с помощью vanessa-runner в CI-системах. Доступно тестирование тонкого клиента. Поддерживаемые версии конфигураций 1С:Бухгалтерия предприятие 3.0 и версии КОРП: 3.0.156.30.

1800 руб.

20.01.2022    7904    24    0    

14

DevOps и автоматизация разработки Логистика, склад и ТМЦ Системный администратор Программист Руководитель проекта Платформа 1С v8.3 Конфигурации 1cv8 1С:Франчайзи, автоматизация бизнеса Платные (руб)

Подсистема «Управление сборкой GLI» предназначена для динамического формирования сборочных линий Gitlab и отслеживания процесса доработок систем на базе1С:Предприятия Позволяет упростить выпуск новых релизов системы, подготовить описание доработок системы. Интегрируется с GitLab API по событиям Push, Merge-request, Pipeline. Уведомляет пользователей о результатах сборки/тестирования сборочных конвейеров через СВ, либо при её недоступности или отсутствию по E-Mail. Поможет при отправке исправлений ошибок в общую базу тестирования, сформирует запросы на слияние в ветку версии только по протестированному и подтверждённому функционалу. Подсистема рассчитана исключительно на клиент - серверную архитектуру тестовых ИБ. Поддерживаемая версии СППР 2.0.4.15, платформа не ниже 8.3.17.1549, 2.0.7.3 / не ниже 8.3.21.1664, начиная с релиза 1.0.4.30 требуется платформа не ниже 8.3.23 рекомендуемый релиз 8.3.23.1997

7000 руб.

26.08.2022    12869    10    10    

35

Тестирование QA DevOps и автоматизация разработки Программист Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Комплексная автоматизация 2.х Россия Бухгалтерский учет Налоговый учет Платные (руб)

Готовые тестовые сценарии, предназначенные для регресс-тестирования функционала конфигурации после обновления типовым релизом. Сценарии проверяют интерактивное заполнение форм документов, справочников и результат проведения документов. Сценарии возможно использовать как для vanessa-automation, так и для СППР. Поддерживаемые версии конфигураций ERP2 и КА2: 2.5.17.113.

2400 руб.

04.07.2022    8530    38    1    

29

DevOps и автоматизация разработки Программист Платформа 1С v8.3 Бесплатно (free)

В проектной разработке часто возникают проблемы с однообразностью ландшафта, производительностью и быстрой разверткой инфраструктуры. Об одном из способов избежать или изолировать данные проблемы с помощью контейнеризации расскажем в статье.

18.09.2024    2262    antonov_av    6    

14

DevOps и автоматизация разработки Бесплатно (free)

Когда информационная база «весит» несколько десятков/сотен гигабайт, для разработки и тестирования обычно используют полную копию рабочей базы. Но если информационная база превышает несколько терабайт, такой подход сталкивается с нехваткой места на диске, долгой реструктуризацией, замедленной скоростью работы и другими проблемами, связанными с размером базы. В статье расскажем, как правильно готовить копии больших баз для разработки и тестирования.

28.08.2024    7265    yuraid    28    

53
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. friskdb 33 20.08.24 15:07 Сейчас в теме
Интересная разработка. Микро сервис умеет распознавать табличные части или только текстовые документы?
romanichenko; +1 Ответить
2. romanichenko 11 20.08.24 15:32 Сейчас в теме
(1) с таблицами плохо дружит но текст достает, цель была достать текст документов для Полнотекстового поиска
Оставьте свое сообщение