Распознавание (конвертация) pdf. Оптическое распознавание (использование OCR Tesseract)

26.11.21

Разработка - Инструментарий разработчика

Опыт работы с распознаванием pdf. Конвертация pdf в текст. Оптическое распознавание (OCR Tesseract)

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Распознавание (Конвертация) pdf. Оптическое распознавание:
.epf 8,45Kb
46
46 Скачать (1 SM) Купить за 1 850 руб.

Возникла необходимость распознавать pdf файлы. Наткнулся на работы 

//infostart.ru/public/1217607/

//infostart.ru/public/1535600/

Очень интересно. Первый вариант очень хорошо работает с пдф файлами, которые сохранены из word, excel или другие программы, но он не распознает отсканированные документы (пдф, собранный из картинок).

Вторая работа тоже очень интересная, захотелось опробовать оба, собрать в одной обработке и описать в данной статье.

Первый вариант, описанный в //infostart.ru/public/1217607/ - работает очень хорошо

 

 

Но стоить распечатать и отсканировать данный текст - уже не распознает

Воспользуемся OCR Tesseract

Скачал его отсюда https://github.com/UB-Mannheim/tesseract/wiki

Суть его работы очень простая: подаете на вход картинки - на выходе получаете текст. Управление через командную строку.

1. Преобразуем ПДФ в картинки - любым удобным способом (я воспользовался работами из //infostart.ru/public/1217607/)

2. Разместил их в каталоге временных файлов    

ФайлывКаталоге = НайтиФайлы(КаталогСохраненияФайлов,"*.png");
    ФайлыКУдалению = новый Массив;
    
    ТекстИзПДФ = "";
    
    Для каждого Элемент Из ФайлывКаталоге Цикл
                    
        ЗапуститьПриложение("""C:\Program Files\Tesseract-OCR\tesseract.exe"" """+Элемент.ПолноеИмя+""" "+КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+" -l rus",,Истина);  //Скармлеваем тесеракту  
            
        Текст = Новый ЧтениеТекста;
        Текст.Открыть(КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+".txt",КодировкаТекста.UTF8);   //считываем распознанный текст           
        Строка = Текст.ПрочитатьСтроку();

        Пока Строка <> Неопределено Цикл                  

            ТекстИзПДФ = ТекстИзПДФ + Строка+Символы.ПС;
            Строка = Текст.ПрочитатьСтроку();             

        КонецЦикла; 
        Текст.Закрыть();
        
        ФайлыКУдалению.Добавить(Элемент.ПолноеИмя);
        ФайлыКУдалению.Добавить(КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+".txt");
    КонецЦикла;
    //Удаляем все созданные файлы
    Для каждого Стркудал Из ФайлыКУдалению Цикл
    
        УдалитьФайлы(Стркудал);    
    
    КонецЦикла;

Все

Реализовал это в обработке 

 

 

Тестировалась на платформе 8.3.17.2256. ОС Windows (x64).

Обработку скачивать не обязательно, все описано выше и вышеуказанных работах.

Распознавание пдф Распознование pdf дпф распознавание

См. также

Инструментарий разработчика Роли и права Запросы СКД Программист Руководитель проекта Платформа 1С v8.3 Управляемые формы Запросы Система компоновки данных Платные (руб)

Инструменты для разработчиков 1С 8.3: Infostart Toolkit. Автоматизация и ускорение разработки на управляемых формах. Легкость работы с 1С.

15500 руб.

02.09.2020    184614    1027    403    

967

Инструментарий разработчика Чистка данных Свертка базы Инструменты администратора БД Системный администратор Программист Руководитель проекта Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

Инструмент представляет собой обработку для проведения свёртки или обрезки баз данных. Работает на ЛЮБЫХ конфигурациях (УТ, БП, ERP, УНФ, КА и т.д.). Поддерживаются серверные и файловые базы, управляемые и обычные формы. Может выполнять свертку одновременно в несколько потоков. А так же автоматически, без непосредственного участия пользователя. Решение в Реестре отечественного ПО

8400 руб.

20.08.2024    24662    164    86    

161

Пакетная печать Печатные формы Инструментарий разработчика Программист Платформа 1С v8.3 Запросы 1С:Зарплата и кадры бюджетного учреждения 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Платные (руб)

Инструмент, позволяющий абсолютно по-новому взглянуть на процесс разработки печатных форм. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и "прозрачность" разработки, а также навести порядок в многообразии корпоративных печатных форм.

22200 руб.

06.10.2023    20396    52    19    

86

Инструменты администратора БД Инструментарий разработчика Роли и права Программист Платформа 1С v8.3 1C:Бухгалтерия Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

15000 руб.

10.11.2023    13721    57    33    

77

Инструментарий разработчика Программист Платформа 1С v8.3 Платные (руб)

Инструмент для написания и отладки кода в режиме «1С:Предприятие». Представляет собой консоль кода с возможностью пошаговой отладки, просмотра значений переменных любых типов, использования процедур и функций, просмотра стека вызовов, вычисления произвольных выражений на встроенном языке в контексте точки останова, синтаксического контроля и остановки по ошибке. В консоли используется удобный редактор кода с подсветкой, контекстной подсказкой, возможностью вызова конструкторов запроса и форматной строки.

9360 руб.

17.05.2024    30628    105    48    

148

Инструментарий разработчика Программист 8.3.14 Россия Платные (руб)

Расширение для конфигурации “Конвертация данных 3”. Добавляет подсветку синтаксиса, детальную контекстную подсказку, глобальный поиск по коду.

20000 руб.

07.10.2021    19134    7    32    

43

Инструментарий разработчика Программист Платформа 1С v8.3 1C:Бухгалтерия Россия Платные (руб)

Восстановление партий или взаиморасчетов, расчет зарплаты, пакетное формирование документов или отчетов - теперь все это стало доступнее. * Есть желание повысить скорость работы медленных алгоритмов! Но... * Нет времени думать о реализации многопоточности? * о запуске и остановке потоков? * о поддержании потоков в рабочем состоянии? * о передаче данных в потоки и как получить ответ из потока? * об организации последовательности? Тогда ЭТО - то что надо!!!

5000 руб.

07.02.2018    104930    246    100    

311
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. SerVer1C 884 27.11.21 23:27 Сейчас в теме
Дело в том, что в компоненте ArrowPDF не реализован OCR движок, но есть возможность банального извлечения текстового слоя из PDF.
2. Lera_1c 15 29.10.22 14:27 Сейчас в теме
Скажите, получится ли png распознать? Не из pdf
Хочу чеки самозанятых обработать. Там png форматы
3. vlaskin 83 09.02.23 18:11 Сейчас в теме
Оставьте свое сообщение