Развертывание Docker с Flask + Tesseract и взаимодействие с 1С: Документооборот на примере версии 1.4

20.08.24

Разработка - DevOps и автоматизация разработки

В данной инструкции рассмотрим процесс развертывания приложения на Python с использованием фреймворка Flask и Tesseract OCR в контейнере Docker. Узнаем, как использовать Tesseract в связке с Flask и осуществлять обращения к Tesseract для обработки изображений. Рассмотрим пример обращения к приложению Docker из 1С, в том числе для замещения CuneiForm в старых конфигурациях 1С:Документооборот версии 1.4 и ниже.

Развертывание Docker с Flask + Tesseract и взаимодействие с 1С: Документооборот на примере версии 1.4

В данной инструкции рассмотрим процесс развертывания приложения на Python с использованием фреймворка Flask и Tesseract OCR в контейнере Docker. Узнаем, как использовать Tesseract в связке с Flask и осуществлять обращения к Tesseract для обработки изображений. Рассмотрим пример обращения к приложению Docker из 1С.

 

Разворачивание приложения

 

Установка Docker

Прежде всего, убедитесь, что у вас установлен Docker. Вы можете скачать и установить его с официального сайта Docker). После установки проверьте, что Docker работает, выполнив команду:

docker --version

 

Создание проекта Flask

Клонируйте репозиторий:

git clone https://gitverse.ru/dgmcomru/imagemagick.git

Перейдите в каталог:

cd imagemagick

Убедитесь, что структура каталогов выглядит так:

ls

Результат:

<DIR>   doc
<DIR>   src
        docker-compose.yaml
        Dockerfile
        README.md
        РаспознаваниеPDF.epf

В каталоге src располагаются модули Python: main.py, skew.py

 

Построение Docker-образа

Теперь мы можем построить наш Docker-образ. Выполните следующую команду:

docker-compose build prod

 

Запуск Docker-контейнера

После успешной сборки образа выполните команду для создания и запуска контейнера:

docker-compose up prod

 

Проверка доступности приложения, запущенного в Docker-контейнере

Теперь вы можете открыть браузер и перейти по адресу http://localhost:5000, где вы увидите сообщение "OCR system enable". Приложение доступно, можем двигаться дальше.

 

Проверка извлечения текста

Теперь вы можете отправлять изображения на обработку в Tesseract через ваше Flask-приложение, используя POST-запрос на /upload с файлом изображения. Например, вы можете использовать curl:

curl -X POST http://localhost:5000/upload -F "image=@path_to_image_file.png"

Если всё настроено правильно, вы получите текст, распознанный Tesseract, в ответе.

 

Использование Docker-приложения в прикладном решении 1С: Документооборот

Протестировано в версии 1С:Документооборота 1.4.11.2.

Обращение к приложению Docker из 1С, передача файла в метод http://localhost:5000/upload для распознавания

Рассмотрим основные - важные процедуры реализующие обращения к приложению Docker для детального понимания реализации

&НаСервереБезКонтекста
Функция РаспознатьНаВнешнемРесурсе(ВерсияСсылка)
    СодержимоеФайла = ПолучитьСодержимоеФайла(ВерсияСсылка, Ложь);
    РезультатСервера = "";
    Если ТипЗнч(СодержимоеФайла) = Тип("ДвоичныеДанные") Тогда
        HTTPСерверРаспознавания = ОбщегоНазначения.ХранилищеОбщихНастроекЗагрузить("АвтоматическоеРаспознаваниеИзображений", "HTTPСерверРаспознавания",,,"Администратор");
        Соединение = Новый HTTPСоединение(HTTPСерверРаспознавания);
        ЗапросСервера = Новый HTTPЗапрос("/upload");
        ЗапросСервера.УстановитьТелоИзДвоичныхДанных(СодержимоеФайла);
        ОтветСервера = Соединение.ВызватьHTTPМетод("POST", ЗапросСервера);
        РезультатСервера = ОтветСервера.ПолучитьТелоКакСтроку(КодировкаТекста.UTF8);
    КонецЕсли;  
    Возврат РезультатСервера;
КонецФункции

 

Вызов процедуры распознавания на сервере

&НаСервереБезКонтекста
Процедура РаспознаваниеИзображений() Экспорт

        ПроверитьДоступностьВнешнегоРесурса();

        Если НЕ РаспознаваниеВключено() Тогда
            ЗаписьЖурналаРегистрацииСервер(НСтр("ru = 'Распознавание отключено, включите или остановите регламентное задание.'"),);        
            Возврат;    
        КонецЕсли;

        УникальныйИдентификатор = Новый УникальныйИдентификатор;

        РазмерПорции = ОбщегоНазначения.ХранилищеОбщихНастроекЗагрузить("АвтоматическоеРаспознаваниеИзображений", "КоличествоФайловВПорции",,,"Администратор");

        Попытка

            РазмерПорцииТекущий = ?(РазмерПорции = Неопределено, 10, РазмерПорции);
            МассивВерсий = ПолучитьМассивВерсийДляРаспознавания(РазмерПорцииТекущий);

            Если МассивВерсий.Количество() = 0 Тогда

                Возврат;

            КонецЕсли;

            Для Индекс = 0 По МассивВерсий.Количество() - 1 Цикл

                //Проверим, если ВЫКлючили прервем цикл
                Если НЕ РаспознаваниеВключено() Тогда
                    Прервать;  
                КонецЕсли;

                ВерсияСсылка = МассивВерсий[Индекс];

                Попытка
                    СтруктураВозврата = РаботаСФайламиВызовСервера.ПолучитьДанныеФайлаИНавигационнуюСсылкуВерсииДляРаспознавания(ВерсияСсылка, УникальныйИдентификатор);
                    ДанныеФайла = СтруктураВозврата.ДанныеФайла;
                    АдресФайла = СтруктураВозврата.НавигационнаяСсылкаВерсии;
                    РасширениеФайлаРезультата = СтруктураВозврата.РасширениеФайлаРезультата;

                    Если ДанныеФайла.СтатусРаспознаванияТекста <> "НужноРаспознать" Тогда

                        Если ЭтоАдресВременногоХранилища(АдресФайла) Тогда
                              УдалитьИзВременногоХранилища(АдресФайла);
                        КонецЕсли;

                        Продолжить; // другой клиент уже обработал файл

                    КонецЕсли;  

                    РаспознанныйТекст = "";
                    СтрокаВозврата = "Успешно";
                    РаспознанныйТекст = РаспознатьНаВнешнемРесурсе(ВерсияСсылка);

                    Если Не ЗначениеЗаполнено(РаспознанныйТекст) Тогда

                        СтрокаВозврата = "Ошибка";
                        ЗаписьЖурналаРегистрацииСервер(нСтр("ru='Результат распознавания пустой'", "ru"), ВерсияСсылка);

                    КонецЕсли;  

                   ЗаписатьРезультатРаспознавания(ВерсияСсылка, СтрокаВозврата, Ложь, РаспознанныйТекст);

                Исключение

                    ИмяСРасширениемФайла = ФайловыеФункцииКлиентСервер.ПолучитьИмяСРасширением(ДанныеФайла.ПолноеНаименованиеВерсии, ДанныеФайла.Расширение);
                    ОписаниеОшибкиИнфо = ОписаниеОшибки();
                    ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                                        НСтр("ru = 'Во время распознавания изображения из файла ""%1"" произошла неизвестная ошибка.'"),
                                        ИмяСРасширениемФайла);
                    ТекстСообщения = ТекстСообщения + Строка(ОписаниеОшибкиИнфо);
                    ЗанестиИнформациюОбОшибкеРаспознавания(ВерсияСсылка, ТекстСообщения);      

                КонецПопытки;  

            КонецЦикла;

            ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                            НСтр("ru = 'Распознавание изображений завершено. Обработано файлов: %1'"),
                            МассивВерсий.Количество());

            ЗаписьЖурналаРегистрацииСервер(ТекстСообщения,);           
Исключение
            ОписаниеОшибкиИнфо = ОписаниеОшибки();
            ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                            НСтр("ru = 'Во время распознавания изображения из файла ""%1"" произошла неизвестная ошибка.'"), ИмяСРасширениемФайла);
                            ТекстСообщения = ТекстСообщения + Строка(ОписаниеОшибкиИнфо);
            ЗаписьЖурналаРегистрацииСервер(ТекстСообщения,);

        КонецПопытки;

КонецПроцедуры

 

Вызов процедуры распознавания с клиента

&НаКлиенте
Процедура РаспознатьВсе(Команда)
    РаспознаваниеВключено = Истина;
    ОбщегоНазначения.ХранилищеОбщихНастроекСохранить("АвтоматическоеРаспознаваниеИзображений", "РаспознаваниеВключено",  РаспознаваниеВключено,,"Администратор");
    КоличествоНераспознанныхФайловДоНачалаОперации = ПолучитьКоличествоНераспознанныхВерсий();
    РаспознаваниеИзображений();
    ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
    НСтр("ru='Завершено распознавание всех нераспознанных файлов. Обработано файлов: %1.'"), КоличествоНераспознанныхФайловДоНачалаОперации);
    ПоказатьПредупреждение(, ТекстСообщения);
КонецПроцедуры

 

Первый запуск обработки РаспознаваниеPDF.epf

Запустите обработку и нажмите кнопку Настройка. Определите адрес ресурса localhost:5000 или внешний servername:5000. Определите количество документов - pdf файлов в одном цикле.

Кнопка Старт разрешает отправку файлов для извлечения текста.

Кнопка Стоп запрещает отправку файлов для извлечения текста.

Кнопка Распознать все отправляет определенное количество документов для извлечения текста и записи результата в Справочник ВерсииФайлов

Пробуйте :)

Буду рад, если вы оцените этот проект и решите присоединиться к его развитию.

 

Проект в свободном доступе

Проект imagemagick на GitVerse

HTTP Docker Flask Tesseract OCR

См. также

DevOps для 1С DevOps и автоматизация разработки Программист Стажер Платные (руб)

Данный онлайн-курс (интенсив) предусматривает изучение процессов, инструментов и методик DevOps, их применение при разработке на платформе 1С. 

2500 руб.

20.06.2023    23621    20    4    

320

1С-программирование DevOps и автоматизация разработки Групповая разработка (Git, хранилище) DevOps для 1С Программист Стажер Платформа 1С v8.3 Платные (руб)

Использования систем контроля версий — стандарт современной разработки. На курсе научимся использованию Хранилища 1С и GIT при разработке на 1С:Предприятие 8. Разберем подходы и приемы коллективной разработки, научимся самостоятельно настраивать системы и ориентироваться в них.

4900 руб.

29.06.2022    12510    106    4    

138

DevOps и автоматизация разработки Тестирование QA Программист Пользователь Платформа 1С v8.3 1С:Зарплата и Управление Персоналом 3.x Россия Бухгалтерский учет Платные (руб)

Автотесты 1С - готовые тестовые сценарии, предназначенные для регресс-тестирования функционала конфигурации после обновления типовым релизом. Сценарии проверяют интерактивное заполнение форм документов, справочников и результат проведения документов. Сценарий – feature-файл, разработанный с помощью vanessa-automation. Запуск сценария выполняется интерактивно с помощью vanessa-automation или с помощью vanessa-runner в CI-системах. Доступно тестирование тонкого клиента. Поддерживаемые версии конфигураций 1С:Зарплата и Управление Персоналом 3 и версии КОРП: 3.1.30.108.

3000 руб.

05.08.2024    1676    17    1    

11

Тестирование QA DevOps и автоматизация разработки Программист Пользователь Платформа 1С v8.3 1С:Бухгалтерия 3.0 Россия Бухгалтерский учет Налоговый учет Платные (руб)

Автотесты 1С - готовые тестовые сценарии, предназначенные для регресс-тестирования функционала конфигурации после обновления типовым релизом. Сценарии проверяют интерактивное заполнение форм документов, справочников и результат проведения документов. Сценарий – feature-файл, разработанный с помощью vanessa-automation. Запуск сценария выполняется интерактивно с помощью vanessa-automation или с помощью vanessa-runner в CI-системах. Доступно тестирование тонкого клиента. Поддерживаемые версии конфигураций 1С:Бухгалтерия предприятие 3.0 и версии КОРП: 3.0.166.17.

2160 руб.

20.01.2022    8157    24    0    

14

Тестирование QA DevOps и автоматизация разработки Программист Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Комплексная автоматизация 2.х Россия Бухгалтерский учет Налоговый учет Платные (руб)

Готовые тестовые сценарии, предназначенные для регресс-тестирования функционала конфигурации после обновления типовым релизом. Сценарии проверяют интерактивное заполнение форм документов, справочников и результат проведения документов. Сценарии возможно использовать как для vanessa-automation, так и для СППР. Поддерживаемые версии конфигураций ERP2 и КА2: 2.5.17.168.

2400 руб.

04.07.2022    8729    39    1    

30

DevOps и автоматизация разработки Программист Платформа 1С v8.3 Бесплатно (free)

В проектной разработке часто возникают проблемы с однообразностью ландшафта, производительностью и быстрой разверткой инфраструктуры. Об одном из способов избежать или изолировать данные проблемы с помощью контейнеризации расскажем в статье.

18.09.2024    3183    antonov_av    6    

14

DevOps и автоматизация разработки Бесплатно (free)

Когда информационная база «весит» несколько десятков/сотен гигабайт, для разработки и тестирования обычно используют полную копию рабочей базы. Но если информационная база превышает несколько терабайт, такой подход сталкивается с нехваткой места на диске, долгой реструктуризацией, замедленной скоростью работы и другими проблемами, связанными с размером базы. В статье расскажем, как правильно готовить копии больших баз для разработки и тестирования.

28.08.2024    8277    yuraid    29    

53

DevOps и автоматизация разработки OneScript Системный администратор Программист Стажер Бесплатно (free)

Рассмотрим создание самоформирующейся документации через комментарии и соглашения: как это сделать и зачем, с описанием полного цикла от исходников конфигурации до странички в интернете

17.06.2024    6777    bayselonarrend    5    

62
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. friskdb 33 20.08.24 15:07 Сейчас в теме
Интересная разработка. Микро сервис умеет распознавать табличные части или только текстовые документы?
romanichenko; +1 Ответить
2. romanichenko 11 20.08.24 15:32 Сейчас в теме
(1) с таблицами плохо дружит но текст достает, цель была достать текст документов для Полнотекстового поиска
Оставьте свое сообщение