Распознавание (конвертация) pdf. Оптическое распознавание (использование OCR Tesseract)

26.11.21

Разработка - Инструментарий разработчика

Опыт работы с распознаванием pdf. Конвертация pdf в текст. Оптическое распознавание (OCR Tesseract)

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Распознавание (Конвертация) pdf. Оптическое распознавание:
.epf 8,45Kb
44
44 Скачать (1 SM) Купить за 1 850 руб.

Возникла необходимость распознавать pdf файлы. Наткнулся на работы 

//infostart.ru/public/1217607/

//infostart.ru/public/1535600/

Очень интересно. Первый вариант очень хорошо работает с пдф файлами, которые сохранены из word, excel или другие программы, но он не распознает отсканированные документы (пдф, собранный из картинок).

Вторая работа тоже очень интересная, захотелось опробовать оба, собрать в одной обработке и описать в данной статье.

Первый вариант, описанный в //infostart.ru/public/1217607/ - работает очень хорошо

 

 

Но стоить распечатать и отсканировать данный текст - уже не распознает

Воспользуемся OCR Tesseract

Скачал его отсюда https://github.com/UB-Mannheim/tesseract/wiki

Суть его работы очень простая: подаете на вход картинки - на выходе получаете текст. Управление через командную строку.

1. Преобразуем ПДФ в картинки - любым удобным способом (я воспользовался работами из //infostart.ru/public/1217607/)

2. Разместил их в каталоге временных файлов    

ФайлывКаталоге = НайтиФайлы(КаталогСохраненияФайлов,"*.png");
    ФайлыКУдалению = новый Массив;
    
    ТекстИзПДФ = "";
    
    Для каждого Элемент Из ФайлывКаталоге Цикл
                    
        ЗапуститьПриложение("""C:\Program Files\Tesseract-OCR\tesseract.exe"" """+Элемент.ПолноеИмя+""" "+КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+" -l rus",,Истина);  //Скармлеваем тесеракту  
            
        Текст = Новый ЧтениеТекста;
        Текст.Открыть(КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+".txt",КодировкаТекста.UTF8);   //считываем распознанный текст           
        Строка = Текст.ПрочитатьСтроку();

        Пока Строка <> Неопределено Цикл                  

            ТекстИзПДФ = ТекстИзПДФ + Строка+Символы.ПС;
            Строка = Текст.ПрочитатьСтроку();             

        КонецЦикла; 
        Текст.Закрыть();
        
        ФайлыКУдалению.Добавить(Элемент.ПолноеИмя);
        ФайлыКУдалению.Добавить(КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+".txt");
    КонецЦикла;
    //Удаляем все созданные файлы
    Для каждого Стркудал Из ФайлыКУдалению Цикл
    
        УдалитьФайлы(Стркудал);    
    
    КонецЦикла;

Все

Реализовал это в обработке 

 

 

Тестировалась на платформе 8.3.17.2256. ОС Windows (x64).

Обработку скачивать не обязательно, все описано выше и вышеуказанных работах.

Распознавание пдф Распознование pdf дпф распознавание

См. также

Инструментарий разработчика Роли и права Запросы СКД Программист Руководитель проекта Платформа 1С v8.3 Управляемые формы Запросы Система компоновки данных Платные (руб)

Инструменты для разработчиков 1С 8.3: Infostart Toolkit. Автоматизация и ускорение разработки на управляемых формах. Легкость работы с 1С.

12000 руб.

02.09.2020    171888    962    403    

924

Инструментарий разработчика Чистка данных Свертка базы Инструменты администратора БД Системный администратор Программист Руководитель проекта Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

Инструмент представляет собой обработку для проведения свёртки или обрезки баз данных. Работает на ЛЮБЫХ конфигурациях (УТ, БП, ERP и т.д.). Поддерживаются серверные и файловые базы, управляемые и обычные формы. Может выполнять свертку сразу нескольких баз данных и выполнять их автоматически без непосредственного участия пользователя. Решение в Реестре отечественного ПО

8400 руб.

20.08.2024    14372    109    46    

108

Пакетная печать Печатные формы Инструментарий разработчика Программист Платформа 1С v8.3 Запросы 1С:Зарплата и кадры бюджетного учреждения 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Платные (руб)

Инструмент, позволяющий абсолютно по-новому взглянуть на процесс разработки печатных форм. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и "прозрачность" разработки, а также навести порядок в многообразии корпоративных печатных форм.

22200 руб.

06.10.2023    17314    43    15    

75

Инструментарий разработчика Программист Платформа 1С v8.3 1C:Бухгалтерия Платные (руб)

Инструмент для написания и отладки кода в режиме «1С:Предприятие». Представляет собой консоль кода с возможностью пошаговой отладки, просмотра значений переменных любых типов, использования процедур и функций, просмотра стека вызовов, вычисления произвольных выражений на встроенном языке в контексте точки останова, синтаксического контроля и остановки по ошибке. В консоли используется удобный редактор кода с подсветкой, контекстной подсказкой, возможностью вызова конструкторов запроса и форматной строки.

9360 руб.

17.05.2024    27305    96    48    

138

Инструменты администратора БД Инструментарий разработчика Роли и права Программист Платформа 1С v8.3 1C:Бухгалтерия Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

15000 руб.

10.11.2023    11917    45    27    

67

SALE! %

Инструментарий разработчика Инструменты администратора БД Системный администратор Программист Платформа 1С v8.3 Управляемые формы 1C:Бухгалтерия Россия Платные (руб)

Универсальный инструмент программиста для администрирования конфигураций. Сборник наиболее часто используемых обработок под единым интерфейсом.

4800 3840 руб.

14.01.2013    191283    1152    0    

920

Инструментарий разработчика Программист 8.3.14 Россия Платные (руб)

Расширение для конфигурации “Конвертация данных 3”. Добавляет подсветку синтаксиса, детальную контекстную подсказку, глобальный поиск по коду.

20000 руб.

07.10.2021    18101    7    32    

42

Инструментарий разработчика Платформа 1С v8.3 1C:Бухгалтерия 1С:ERP Управление предприятием 2 Платные (руб)

Разработка Конструктор автоматизированных рабочих мест "Конструктор АРМ" реализована в виде расширения и является универсальным инструментом для создания АРМ любой сложности в пользовательском режиме.

3600 руб.

27.12.2024    1136    2    0    

5
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. SerVer1C 863 27.11.21 23:27 Сейчас в теме
Дело в том, что в компоненте ArrowPDF не реализован OCR движок, но есть возможность банального извлечения текстового слоя из PDF.
2. Lera_1c 15 29.10.22 14:27 Сейчас в теме
Скажите, получится ли png распознать? Не из pdf
Хочу чеки самозанятых обработать. Там png форматы
3. vlaskin 83 09.02.23 18:11 Сейчас в теме
Оставьте свое сообщение