Развертывание Docker с Flask + Tesseract и взаимодействие с 1С: Документооборот на примере версии 1.4

20.08.24

Разработка - DevOps и автоматизация разработки

В данной инструкции рассмотрим процесс развертывания приложения на Python с использованием фреймворка Flask и Tesseract OCR в контейнере Docker. Узнаем, как использовать Tesseract в связке с Flask и осуществлять обращения к Tesseract для обработки изображений. Рассмотрим пример обращения к приложению Docker из 1С, в том числе для замещения CuneiForm в старых конфигурациях 1С:Документооборот версии 1.4 и ниже.

Развертывание Docker с Flask + Tesseract и взаимодействие с 1С: Документооборот на примере версии 1.4

В данной инструкции рассмотрим процесс развертывания приложения на Python с использованием фреймворка Flask и Tesseract OCR в контейнере Docker. Узнаем, как использовать Tesseract в связке с Flask и осуществлять обращения к Tesseract для обработки изображений. Рассмотрим пример обращения к приложению Docker из 1С.

 

Разворачивание приложения

 

Установка Docker

Прежде всего, убедитесь, что у вас установлен Docker. Вы можете скачать и установить его с официального сайта Docker). После установки проверьте, что Docker работает, выполнив команду:

docker --version

 

Создание проекта Flask

Клонируйте репозиторий:

git clone https://gitverse.ru/dgmcomru/imagemagick.git

Перейдите в каталог:

cd imagemagick

Убедитесь, что структура каталогов выглядит так:

ls

Результат:

<DIR>   doc
<DIR>   src
        docker-compose.yaml
        Dockerfile
        README.md
        РаспознаваниеPDF.epf

В каталоге src располагаются модули Python: main.py, skew.py

 

Построение Docker-образа

Теперь мы можем построить наш Docker-образ. Выполните следующую команду:

docker-compose build prod

 

Запуск Docker-контейнера

После успешной сборки образа выполните команду для создания и запуска контейнера:

docker-compose up prod

 

Проверка доступности приложения, запущенного в Docker-контейнере

Теперь вы можете открыть браузер и перейти по адресу http://localhost:5000, где вы увидите сообщение "OCR system enable". Приложение доступно, можем двигаться дальше.

 

Проверка извлечения текста

Теперь вы можете отправлять изображения на обработку в Tesseract через ваше Flask-приложение, используя POST-запрос на /upload с файлом изображения. Например, вы можете использовать curl:

curl -X POST http://localhost:5000/upload -F "image=@path_to_image_file.png"

Если всё настроено правильно, вы получите текст, распознанный Tesseract, в ответе.

 

Использование Docker-приложения в прикладном решении 1С: Документооборот

Протестировано в версии 1С:Документооборота 1.4.11.2.

Обращение к приложению Docker из 1С, передача файла в метод http://localhost:5000/upload для распознавания

Рассмотрим основные - важные процедуры реализующие обращения к приложению Docker для детального понимания реализации

&НаСервереБезКонтекста
Функция РаспознатьНаВнешнемРесурсе(ВерсияСсылка)
    СодержимоеФайла = ПолучитьСодержимоеФайла(ВерсияСсылка, Ложь);
    РезультатСервера = "";
    Если ТипЗнч(СодержимоеФайла) = Тип("ДвоичныеДанные") Тогда
        HTTPСерверРаспознавания = ОбщегоНазначения.ХранилищеОбщихНастроекЗагрузить("АвтоматическоеРаспознаваниеИзображений", "HTTPСерверРаспознавания",,,"Администратор");
        Соединение = Новый HTTPСоединение(HTTPСерверРаспознавания);
        ЗапросСервера = Новый HTTPЗапрос("/upload");
        ЗапросСервера.УстановитьТелоИзДвоичныхДанных(СодержимоеФайла);
        ОтветСервера = Соединение.ВызватьHTTPМетод("POST", ЗапросСервера);
        РезультатСервера = ОтветСервера.ПолучитьТелоКакСтроку(КодировкаТекста.UTF8);
    КонецЕсли;  
    Возврат РезультатСервера;
КонецФункции

 

Вызов процедуры распознавания на сервере

&НаСервереБезКонтекста
Процедура РаспознаваниеИзображений() Экспорт

        ПроверитьДоступностьВнешнегоРесурса();

        Если НЕ РаспознаваниеВключено() Тогда
            ЗаписьЖурналаРегистрацииСервер(НСтр("ru = 'Распознавание отключено, включите или остановите регламентное задание.'"),);        
            Возврат;    
        КонецЕсли;

        УникальныйИдентификатор = Новый УникальныйИдентификатор;

        РазмерПорции = ОбщегоНазначения.ХранилищеОбщихНастроекЗагрузить("АвтоматическоеРаспознаваниеИзображений", "КоличествоФайловВПорции",,,"Администратор");

        Попытка

            РазмерПорцииТекущий = ?(РазмерПорции = Неопределено, 10, РазмерПорции);
            МассивВерсий = ПолучитьМассивВерсийДляРаспознавания(РазмерПорцииТекущий);

            Если МассивВерсий.Количество() = 0 Тогда

                Возврат;

            КонецЕсли;

            Для Индекс = 0 По МассивВерсий.Количество() - 1 Цикл

                //Проверим, если ВЫКлючили прервем цикл
                Если НЕ РаспознаваниеВключено() Тогда
                    Прервать;  
                КонецЕсли;

                ВерсияСсылка = МассивВерсий[Индекс];

                Попытка
                    СтруктураВозврата = РаботаСФайламиВызовСервера.ПолучитьДанныеФайлаИНавигационнуюСсылкуВерсииДляРаспознавания(ВерсияСсылка, УникальныйИдентификатор);
                    ДанныеФайла = СтруктураВозврата.ДанныеФайла;
                    АдресФайла = СтруктураВозврата.НавигационнаяСсылкаВерсии;
                    РасширениеФайлаРезультата = СтруктураВозврата.РасширениеФайлаРезультата;

                    Если ДанныеФайла.СтатусРаспознаванияТекста <> "НужноРаспознать" Тогда

                        Если ЭтоАдресВременногоХранилища(АдресФайла) Тогда
                              УдалитьИзВременногоХранилища(АдресФайла);
                        КонецЕсли;

                        Продолжить; // другой клиент уже обработал файл

                    КонецЕсли;  

                    РаспознанныйТекст = "";
                    СтрокаВозврата = "Успешно";
                    РаспознанныйТекст = РаспознатьНаВнешнемРесурсе(ВерсияСсылка);

                    Если Не ЗначениеЗаполнено(РаспознанныйТекст) Тогда

                        СтрокаВозврата = "Ошибка";
                        ЗаписьЖурналаРегистрацииСервер(нСтр("ru='Результат распознавания пустой'", "ru"), ВерсияСсылка);

                    КонецЕсли;  

                   ЗаписатьРезультатРаспознавания(ВерсияСсылка, СтрокаВозврата, Ложь, РаспознанныйТекст);

                Исключение

                    ИмяСРасширениемФайла = ФайловыеФункцииКлиентСервер.ПолучитьИмяСРасширением(ДанныеФайла.ПолноеНаименованиеВерсии, ДанныеФайла.Расширение);
                    ОписаниеОшибкиИнфо = ОписаниеОшибки();
                    ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                                        НСтр("ru = 'Во время распознавания изображения из файла ""%1"" произошла неизвестная ошибка.'"),
                                        ИмяСРасширениемФайла);
                    ТекстСообщения = ТекстСообщения + Строка(ОписаниеОшибкиИнфо);
                    ЗанестиИнформациюОбОшибкеРаспознавания(ВерсияСсылка, ТекстСообщения);      

                КонецПопытки;  

            КонецЦикла;

            ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                            НСтр("ru = 'Распознавание изображений завершено. Обработано файлов: %1'"),
                            МассивВерсий.Количество());

            ЗаписьЖурналаРегистрацииСервер(ТекстСообщения,);           
Исключение
            ОписаниеОшибкиИнфо = ОписаниеОшибки();
            ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
                            НСтр("ru = 'Во время распознавания изображения из файла ""%1"" произошла неизвестная ошибка.'"), ИмяСРасширениемФайла);
                            ТекстСообщения = ТекстСообщения + Строка(ОписаниеОшибкиИнфо);
            ЗаписьЖурналаРегистрацииСервер(ТекстСообщения,);

        КонецПопытки;

КонецПроцедуры

 

Вызов процедуры распознавания с клиента

&НаКлиенте
Процедура РаспознатьВсе(Команда)
    РаспознаваниеВключено = Истина;
    ОбщегоНазначения.ХранилищеОбщихНастроекСохранить("АвтоматическоеРаспознаваниеИзображений", "РаспознаваниеВключено",  РаспознаваниеВключено,,"Администратор");
    КоличествоНераспознанныхФайловДоНачалаОперации = ПолучитьКоличествоНераспознанныхВерсий();
    РаспознаваниеИзображений();
    ТекстСообщения = СтроковыеФункцииКлиентСервер.ПодставитьПараметрыВСтроку(
    НСтр("ru='Завершено распознавание всех нераспознанных файлов. Обработано файлов: %1.'"), КоличествоНераспознанныхФайловДоНачалаОперации);
    ПоказатьПредупреждение(, ТекстСообщения);
КонецПроцедуры

 

Первый запуск обработки РаспознаваниеPDF.epf

Запустите обработку и нажмите кнопку Настройка. Определите адрес ресурса localhost:5000 или внешний servername:5000. Определите количество документов - pdf файлов в одном цикле.

Кнопка Старт разрешает отправку файлов для извлечения текста.

Кнопка Стоп запрещает отправку файлов для извлечения текста.

Кнопка Распознать все отправляет определенное количество документов для извлечения текста и записи результата в Справочник ВерсииФайлов

Пробуйте :)

Буду рад, если вы оцените этот проект и решите присоединиться к его развитию.

 

Проект в свободном доступе

Проект imagemagick на GitVerse

Вступайте в нашу телеграмм-группу Инфостарт

HTTP Docker Flask Tesseract OCR

См. также

DevOps и автоматизация разработки Тестирование QA Программист Пользователь 1С v8.3 1С:Зарплата и Управление Персоналом 3.x Россия Бухгалтерский учет Платные (руб)

Автотесты 1С - готовые тестовые сценарии, предназначенные для регресс-тестирования функционала конфигурации после обновления типовым релизом. Сценарии проверяют интерактивное заполнение форм документов, справочников и результат проведения документов. Сценарий – feature-файл, разработанный с помощью vanessa-automation. Запуск сценария выполняется интерактивно с помощью vanessa-automation или с помощью vanessa-runner в CI-системах. Доступно тестирование тонкого клиента. Поддерживаемые версии конфигураций 1С:Зарплата и Управление Персоналом 3 и версии КОРП: 3.1.35.48.

3600 руб.

05.08.2024    4112    22    1    

16

Тестирование QA DevOps и автоматизация разработки Программист 1С v8.3 1С:ERP Управление предприятием 2 1С:Комплексная автоматизация 2.х Россия Бухгалтерский учет Налоговый учет Платные (руб)

Готовые тестовые сценарии, предназначенные для регресс-тестирования функционала конфигурации после обновления типовым релизом. Сценарии проверяют интерактивное заполнение форм документов, справочников и результат проведения документов. Сценарии возможно использовать как для vanessa-automation, так и для СППР. Поддерживаемые версии конфигураций ERP2 и КА2: 2.5.17.168.

2400 руб.

04.07.2022    11234    44    1    

35

HighLoad оптимизация DevOps и автоматизация разработки Бесплатно (free)

Роль архитектора появилась в мире 1С относительно недавно, и вокруг нее до сих пор существует множество заблуждений и завышенных ожиданий. Расскажем о том, какие задачи бизнес ставит перед таким специалистом, и какие инструменты помогают эти задачи решать.

08.10.2025    1528    komil4    11    

10

DevOps и автоматизация разработки Бесплатно (free)

Вы собрали свой первый пайплайн на базе Gitlab CI? Поздравляю, вы молодец! Но что делать, когда количество проектов начинает расти? Как быть с проблемами окружения, долгим выполнением сборки и дополнительными трудозатратами по поддержке скриптов? Расскажем о подготовке образов для запуска заданий в контейнерах, оптимальных настройках gitlab-раннеров, приемах повышения скорости выполнения заданий при работе с EDT, использовании CI/CD components для дедупликации кода пайплайна и выпуске артефактов релизов, используя Gitlab Package Registry и Releases.

19.09.2025    1601    DAAbramov    5    

10

DevOps и автоматизация разработки Программист Бесплатно (free)

Облачные технологии и DevOps кардинально меняют подход к разработке на платформе 1С:Предприятие. Делимся реальным опытом построения CI/CD-конвейера в GitLab: от сборки и тестирования с YAxUnit и Vanessa Automation до интеграции с SonarQube и безопасного развертывания в продакшен. Вы узнаете, как с помощью Docker и автоматизации превратить рутину в предсказуемый и надежный процесс, сократив риски и освободив время для решений, которые действительно требуют вашего профессионализма.

18.08.2025    2662    ComboBoy    0    

5

DevOps и автоматизация разработки Программист Бесплатно (free)

Задумывались ли вы, сколько времени разработчики тратят не на код, а на рутинные действия – от настройки окружения до поиска ответственных и документации? Эта статья о том, как найти и устранить «ерунду», которая тормозит процесс и раздражает на каждом этапе разработки. Разбираемся, как с помощью автоматизации, чек-листов и правильных процессов сделать разработку комфортной, эффективной и даже приятной.

18.08.2025    4403    mrXoxot    1    

19

DevOps и автоматизация разработки Программист Бесплатно (free)

Так сложилось, что чаще всего для целей CI/CD в проектах 1С применяется Jenkins и чуть реже GitLab CI. Но существует множество других решений для построения сборочных контуров. Ниже речь пойдет о применении решения Azure DevOps в проектах на 1С. В основе – реальный кейс, шаблоны, инструменты и собственные расширения.

15.08.2025    1885    ktb    0    

11

DevOps и автоматизация разработки OneScript Программист Бесплатно (free)

Когда в компании используется более 500 внешних обработок для 20 различных баз, процесс их параллельной разработки превращается в борьбу. Расскажем о тернистом пути от ручных скриптов к масштабируемой DevOps-системе, позволяющей централизованно управлять внешними обработками, автоматизировать сборки, интегрироваться с таск-трекером, запускать автотесты и разворачивать окружение в пару кликов.

12.08.2025    6283    untru    13    

24
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. friskdb 33 20.08.24 15:07 Сейчас в теме
Интересная разработка. Микро сервис умеет распознавать табличные части или только текстовые документы?
romanichenko; +1 Ответить
2. romanichenko 12 20.08.24 15:32 Сейчас в теме
(1) с таблицами плохо дружит но текст достает, цель была достать текст документов для Полнотекстового поиска
Для отправки сообщения требуется регистрация/авторизация