PDF Extractor - извлекаем информацию из PDF с помощью Poppler

26.05.20

Разработка - Инструментарий разработчика

«Класс» - обёртка для упрощения использования возможностей Poppler из 1С. Позволяет просто извлекать информацию из PDF-файлов в виде изображений и текста.

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
PDF Extractor - извлекаем информацию из PDF с помощью Poppler:
.epf 15,28Kb ver:20200529
37
37 Скачать (1 SM) Купить за 1 850 руб.

Мой велосипед для извлечения информации из PDF.

Изначально было необходимо находить и сохранять содержание книги в виде картинки для сайта из PDF-файлов, предоставляемых издательством, но применений можно найти массу.

По сути представляет из себя обёртку для более удобного использования библиотеки Poppler, поэтому последний должен быть установлен на компьютере. Poppler можно прописать в PATH, либо указывать путь к библиотеке непосредственно в обработке.

Возможности:

  • Извлечение страниц файла в виде изображений (настраивается качество, номера страниц, цветность, форма)
  • Извлечение страниц файла в виде текста
  • Извлечение отдельных изображения, содержащихся в PDF-документе
  • Разбиение (разделение) одного файла на несколько
  • Объединение нескольких файлов в один

Примеры использования:

1. Сохраняем каждую страницу файла, как отдельное изображение
PDF_Extractor = Обработки.PDF_Extractor.Создать(); // Если встроили обработку в конфигурацию
PDF_Extractor.КаталогPoppler = ""; // Можно не указывать, если poppler прописан в PATH
Изображения = PDF_Extractor.ФайлВИзображения("D:\my_file.pdf");

Для Каждого Изображение ИЗ Изображения Цикл
   Картинка = Новый Картинка(Изображение.ДвоичныеДанные);
   // Дальнейшая работа с изображением   
КонецЦикла;
2. Извлечение текста
PDF_Extractor = Обработки.PDF_Extractor.Создать();
Страницы = PDF_Extractor.ФайлВТекст("D:\my_file.pdf");

Для Каждого Страница ИЗ Страницы Цикл
    Если 0 < Найти(Страница.Текст, "что-то") Тогда
        // Обработка текста, поиск и т.п.
    КонецЕсли;
КонецЦикла;
3. Извлечение встроенных картинок
PDF_Extractor = Обработки.PDF_Extractor.Создать();
Изображения = PDF_Extractor.ИзображенияИзФайла("D:\my_file.pdf");

Для Каждого Изображение ИЗ Изображения Цикл
    НомерСтраницы = Изображение.НомерСтраницы;    // Возможно, ищем картинку
    НомерКартинки = Изображение.НомерИзображения; // на конкретной странице
    Расширение = Изображение.Расширение;
    Картинка = Новый Картинка(Изображение.ДвоичныеДанные);
    // Дальнейшая работа с изображением
КонецЦикла;
4. Разбиваем один файл на несколько
PDF_Extractor = Обработки.PDF_Extractor.Создать();
Файлы = PDF_Extractor.РазбитьФайл("D:\my_file.pdf", "D:\Каталог"); // Каталог можно не указывать

Для Каждого Файл ИЗ Файлы Цикл
    Сообщить("Создан файл: " + Файл.ПолноеИмя);
КонецЦикла;

5. Склеиваем несколько файлов в один

ФайлыДляОбъединения = Новый Массив();
ФайлыДляОбъединения.Добавить("D:\small_file_1.pdf");
ФайлыДляОбъединения.Добавить("D:\small_file_2.pdf");
ФайлыДляОбъединения.Добавить("D:\small_file_3.pdf");

PDF_Extractor = Обработки.PDF_Extractor.Создать();
Файл = PDF_Extractor.ОбъединитьНесколькоФайлов(ФайлыДляОбъединения, "D:\big_file.pdf");
ОтправитьФайл("mail@example.com", Файл); // Или любая другая обработка полученного файла
6. Получение служебной информации о файле
Сообщить(PDF_Extractor.СтрокаИнформацииОФайле("D:\my_file.pdf"));
// или так
Информация = PDF_Extractor.ИнформацияОФайле("D:\my_file.pdf"));
Для Каждого Поле ИЗ Информация Цикл
    Сообщить(Поле.Ключ + " - " + Поле.Значение);
КонецЦикла;

Ложка дёгтя:

Так как это всё-таки обёртка над библиотекой, то есть некоторая неиформативность в сообщениях об ошибках. Наверно, можно сделать вывод ошибок более понятным, но я, если честно, не очень старался в этой части.

Все методы в случае ошибки возвращают Неопределено. Если это произошло, вызываем метод ПоследняяОшибка() и получаем примерно следующее:

Сообщить(ПоследняяОшибка());

// Не удалось сохранить страницу файла
// pdftoppm "D:\383251.pdf" -r 200 -f 12 -l 12 -jpeg > "C:\Windows\Temp\v8_2F17_be.jpeg"

Используя команду, на которой вывалилась ошибка можно определить, что пошло не так.

Тестировалось в следующих условиях:
  • ОС Windows 10 x64, релизы платформы 8.2.19.116 и 8.3.16.1148
  • ОС Ubuntu 18.04 x64, релиз платформы 8.3.15.1565

Похожие разработки:

P.S.1 Корректировка ошибок и предложения по улучшению приветствуются.
P.S.2 Бинарники для Windows брал здесь.

PDF poppler извлечь текст картинки разбить объединить

См. также

Инструментарий разработчика Роли и права Запросы СКД Программист Руководитель проекта Платформа 1С v8.3 Управляемые формы Запросы Система компоновки данных Платные (руб)

Инструменты для разработчиков 1С 8.3: Infostart Toolkit. Автоматизация и ускорение разработки на управляемых формах. Легкость работы с 1С.

15500 руб.

02.09.2020    177607    986    403    

943

Инструментарий разработчика Чистка данных Свертка базы Инструменты администратора БД Системный администратор Программист Руководитель проекта Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

Инструмент представляет собой обработку для проведения свёртки или обрезки баз данных. Работает на ЛЮБЫХ конфигурациях (УТ, БП, ERP, УНФ, КА и т.д.). Поддерживаются серверные и файловые базы, управляемые и обычные формы. Может выполнять свертку сразу нескольких баз данных и выполнять их автоматически без непосредственного участия пользователя. Решение в Реестре отечественного ПО

8400 руб.

20.08.2024    19118    127    70    

131

Инструменты администратора БД Инструментарий разработчика Роли и права Программист Платформа 1С v8.3 1C:Бухгалтерия Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

15000 руб.

10.11.2023    12793    53    33    

72

Пакетная печать Печатные формы Инструментарий разработчика Программист Платформа 1С v8.3 Запросы 1С:Зарплата и кадры бюджетного учреждения 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Платные (руб)

Инструмент, позволяющий абсолютно по-новому взглянуть на процесс разработки печатных форм. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и "прозрачность" разработки, а также навести порядок в многообразии корпоративных печатных форм.

22200 руб.

06.10.2023    18752    49    19    

82

Инструментарий разработчика Программист Платформа 1С v8.3 Платные (руб)

Инструмент для написания и отладки кода в режиме «1С:Предприятие». Представляет собой консоль кода с возможностью пошаговой отладки, просмотра значений переменных любых типов, использования процедур и функций, просмотра стека вызовов, вычисления произвольных выражений на встроенном языке в контексте точки останова, синтаксического контроля и остановки по ошибке. В консоли используется удобный редактор кода с подсветкой, контекстной подсказкой, возможностью вызова конструкторов запроса и форматной строки.

9360 руб.

17.05.2024    28914    100    48    

146

Инструментарий разработчика Программист 8.3.14 Россия Платные (руб)

Расширение для конфигурации “Конвертация данных 3”. Добавляет подсветку синтаксиса, детальную контекстную подсказку, глобальный поиск по коду.

20000 руб.

07.10.2021    18613    7    32    

43

Инструментарий разработчика Платформа 1С v8.3 1C:Бухгалтерия 1С:ERP Управление предприятием 2 Платные (руб)

Разработка Конструктор автоматизированных рабочих мест "Конструктор АРМ" реализована в виде расширения и является универсальным инструментом для создания АРМ любой сложности в пользовательском режиме.

3600 руб.

27.12.2024    1713    2    0    

5
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. утюгчеловек 42 26.05.20 12:51 Сейчас в теме
Почему бы не встроить бинарники поплера в обработку в качестве макетов, сохранять во временную папку и запускать оттуда, избавляя пользователя необходимости устанавливать попплер отдельно?
Это не секьюрно, но раз решение все равно нацелено на личное использование - можеть оказаться удобно, нет?
2. salexdv 2365 26.05.20 13:26 Сейчас в теме
(1) Poppler может обновляться, и каждый раз при этом обновлять обработку не очень хочется, да и занимают эти бинарники довольно много места. Кроме того решение, вроде как, кроссплатформенное.
Если бы это была часть распространяемого решения, тогда да, ваш вариант был бы очень кстати.
3. Nio 72 29.05.20 09:00 Сейчас в теме
Подскажите пожалуйста а распознать текст на картинке в фале pdf может?
Сканируют на сканеры документ и присылают в pdf.
4. salexdv 2365 29.05.20 09:14 Сейчас в теме
(3) К сожалению, нет. Если PDF сделан, как обычный документ, тогда текст извлекается, а со сканера - это чисто картинка.
5. Nio 72 29.05.20 13:03 Сейчас в теме
(4) Эх чуда не произошло. Спасибо.
6. salexdv 2365 29.05.20 14:46 Сейчас в теме
(5) Вы можете сохранить каждую страницу, как отдельную картинку, а потом попробовать что-то вроде этого.
7. Nio 72 29.05.20 20:34 Сейчас в теме
(6)Да я видел. Застрял на получение токена. Токен вроде есть а не работает.
8. user626743_2mugik 27.10.21 06:59 Сейчас в теме
Спасибо. Интересно. Ты консольные приложения использовал или ВК делал чтобы непосредственно к библиотеки на С++ подключится?
9. salexdv 2365 27.10.21 09:24 Сейчас в теме
(8) Используется консольное приложение, просто оно запускается с разными аргументами.
10. user626743_2mugik 28.10.21 07:33 Сейчас в теме
Подключился к библиотеке в папке CPP так оно pdf в png гораздо хуже конвертирует чем консольное приложение. размер файла правда в 2 раза меньше тоже. dpi одинаковое ставил. Причем MSVS ругался при компиляции что метод renderer deleted. Хотел на сервере запустить., не получилось(
11. salexdv 2365 28.10.21 08:43 Сейчас в теме
(10) Библиотеку на С++ не пробовал, поэтому ничего толгового не подскажу. Мне показалось, что проще сделать обертку над консольным приложением. Практика показала, что работает достаточно быстро и стабильно.
FeliceYa; +1 Ответить
12. Поручик 4667 09.11.21 10:51 Сейчас в теме
Я сделал склеивание pdf с помощью PDFMerge. Сама программа зашита в обработку и извлекается при необходимости при запуске обработки.. Правда требуется установленный .NET Framework
13. salexdv 2365 09.11.21 11:05 Сейчас в теме
(12) Неплохой вариант. На самом деле ничто не мешает и poppler положить в макет обработки, просто мне не хотелось привязываться к конкретной версии библиотеки т.к. она постоянно развивается.
14. Evgeniy 106 14.11.24 15:16 Сейчас в теме
Скачал обработку.
Не хватает самого главного в ней - пакета Poppler
Не смог найти где его можно скачать, можете поделиться?
Непонятно как его устанавливать на виндовс
15. salexdv 2365 14.11.24 16:48 Сейчас в теме
(14) Старая ссылка недоступна, к сожалению. Попробуйте взять тут
16. Evgeniy 106 15.11.24 16:09 Сейчас в теме
(15) Скачал архив, спасибо. Теперь осталось понять что дальше делать
1) нужно ли регистрировать библиотеку Poppler или достаточно распаковать и указать путь к файлу?
2) какой путь нужно указывать? Можете подсказать на примере архива что вы выслали

Пока я просто скачал архив, нашел в нём файл pdfimages.exe
Прописал к нему путь в обработке (poppler-24.08.0\Library\bin)
Запускаю, но никаких картинок не получаю в итоге.
Пока не ясно что делаю не так.
17. salexdv 2365 15.11.24 16:44 Сейчас в теме
(16) Достаточно вроде к bin указать путь
18. Evgeniy 106 15.11.24 23:18 Сейчас в теме
(17) понял. спасибо. вроде получилось
Оставьте свое сообщение