Обзор консольных приложений для электронного архива

25.08.19

Задачи пользователя - Инструкции пользователю

Потребность в архиве зрела давно, но в связи с определенными обстоятельствами, реализовывать начали в начале лета. Пока внедряли, собрали некоторое количество опыта, которым и хочу поделиться.

Изначально стало понятно, что входящих документов много разных видов, и каждый вид документа нужно обрабатывать, согласно индивидуальному сценарию, последовательно выполняя операции над файлами на каждом из следующих этапов используя результат предыдущих шагов.

Сначала, согласно универсальной таблице оценки задач сначала показалось что это "изъян", однако в итоге это оказалось - что "вроде изъян".

Сама задача, для чего это все делалось;

Изначально задача стояла такая, есть сканы документов, необходимо данные сканы привязать к карточкам документов.

Есть документы которые исходящие и печатаются в наших системах, на них мы можем разместить штрих код;
Есть документы входящие, для поступающих документов, на которые можно наклеить штрих код внеся
информацию по нему, в систему, для последующей автоматической обработки.

Однако был уже большой архив документов, которые не имели штрих кода.
Обратив внимание как сотрудники привязывают эти документы, была высказана гипотеза, что это можно сделать сильно проще.

Задачи распознавать табличные части документов у нас не стояло, по этому коммерческое на Adobe Flexicapture, мы внимательно посмотрели, и оставили до лучших времен.

Мы для себя поставили задачу что нам достаточно 95 процентов документов, привязанных автоматически,
для тех документов, которые у нас реализовано удобное рабочее место для обработки документов.

Примеры шагов, которые были реализованы:

Импорт файлов в систему;
Разбиение файлов на страницы;
Извлечение первой страницы из файла;
Извлечение изображений из PDF;
Преобразование PDF в JPG;
Вырезать область документа;
Извлечение текста из изображения;
Извлечение реквизитов документа из текстового образа документа;
Выполнение привязки документов по реквизитам;
Распознавание штрих кода;

Пример готового сценария:

Что и как можно использовать, для реализации данных шагов:

У всех приложений справка вызывается, стандартным ключом: -h или -help;

1. Image Magic - всем известный консольный редактор, может много чего;

справка достаточно подробная; заострять внимание надолго не буду информации в сети много:

Пример команды:

convert.exe $Источник -rotate 180 -trim -crop 1800x600+50+50 -resize 150%% $Получатель

Параметры:

- rotate - поворот на N количество градусов;

- crop - команда обрезки изображений, в формате Ширина x Высота + Отступ слева + отступ сверху;

- resize - увеличение на процент;

- trim - обрезать пустые области;

2. X-PDF tools - группа приложений позволяющих производить определенные операции;

Сайт проекта: https://www.xpdfreader.com/download.html

Состав:

pdfinfo - получает информацию о pdf файле;

pdftotext - если в PDF есть текстовый слой, то его можно извлечь данным приложением;

pdfimages - если в PDF есть изображения, как например скан документа - в этом случае можно извлечь данное изображение, не применяя Image Magic, по скорости выше, и без изменения картинки;

pdftopng - аналогично по функциональности тому что делает ImageMagick, преобразует из PDF в цельную картинку, но мне как то лучше зашло, не удалось добиться от ImageMagick вменяемого преобразования в pdf, что бы хорошо распознавался текст, может я в танке, может ImageMagick , но данная приблуда проблему решила;

pdftohtml - преобразует pdf в html, нормально преобразует только pdf с текстовым слоем, это когда надо извлечь не только текст, но и сохранить структуру файла;

Примеры:

pdfimages -j $Источник $Получатель

Параметр -j - задает сохранение в jpeg;

pdftopng $Источник $Получатель

3. TESSERACT OCR - вот это вообще пуля, не серебряная жаль,

однако тег #распознавание текста с изображений, бесплатно без смс и регистрации, скачать онлайн

поставить можно.

Результат стабильно хороший, я в ему почти всегда даю шапки документов, затем

извлекаю дату, номер и инн, в абсолютных числах что к чему не скажу - лень матушка цифры собирать, но по ощущениям, процентов 98 реквизитов распознается доступно для извлечения регулярками;

Сайт проекта: https://github.com/tesseract-ocr/tesseract/wiki

Пример запуска:

Английский: "tesseract.exe" $Источник $Получатель

Русский: "tesseract.exe" $Источник $Получатель -l rus

Если кому то надо, что бы было куда жаловаться на результаты, то тогда вполне можно использовать, это:

//infostart.ru/public/586313/

но это за денежку, но можно жаловаться.

4. PDFTK - используется для разделения или объединения файлов на страницы;

Сайт проекта: https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

pdftk $Источник cat 1 output $Получатель - извлечь первую страницу;

pdftk $Источник burst output $Получатель - разбить pdf на страницы;

pdftk $КаталогФайлов *.pdf cat output $Получатель - склеить все файлы из каталога в один файл;

5. Распознавание штрих кодов;

Использовал, компоненту из публикации: //infostart.ru/public/877003/

Сайт проекта на Github, там можно посмотреть какие есть еще параметры.

https://github.com/zxing/zxing

Ахтунг ахтунг: требуется установленная Java!

Приведу пример запуска, может кому пригодится:

+16 –

См. также

Доставучие вопросы №1: Ошибка в программе 1С

Инструкции пользователю Бесплатно (free)

Серия материалов, о том какие самые доставучие вопросы задают пользователи 1С, от которых прям выворачивает, когда видишь что пользователь не видит перед собой кнопку, галку.

23.05.2025 1564 Eugeneer 11

Как перейти на новую ставку по налогу на прибыль в 2025 году в программе 1С:ERP Управление предприятием

Инструкции пользователю Регламентированный учет и отчетность Бухгалтер Платформа 1С v8.3 Бухгалтерский учет 1С:ERP Управление предприятием 2 Россия Бухгалтерский учет Налоговый учет Налог на прибыль Бесплатно (free)

Начиная с 1 января 2025 года изменяется ставка по налогу на прибыль. Как перейти на нее в программе «1С:ERP Управление предприятием»?

27.12.2024 10963 1СERP 5

Инструкция для макропада

Инструментарий разработчика Инструкции пользователю Бесплатно (free)

Макропад — это программируемая мини-клавиатура, позволяющая назначить на его кнопки выполнение каких-то действий: от управления громкостью медиа проигрывателя и до ввода макросов для автоматизации каких-то действий, например, для ввода с клавиатуры шаблонов кода 1С. Все участники конференции INFOSTART TECH EVENT 2024 получили в комплекте участника такое устройство. В этой статье - необходимые файлы и инструкции по настройке.

10.10.2024 7918 kuntashov 60

Как отредактировать документ перед печатью в 1С. Советы пользователям

Инструкции пользователю Печатные формы Бухгалтер Пользователь Платформа 1С v8.3 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Зарплата и Управление Персоналом 3.x Россия Бесплатно (free)

Простые приемы редактирования печатных форм документов 1С в пользовательском режиме.

29.07.2024 9169 accounting_cons 15

Настройки отчетов 1С. Инструкция для пользователя

Инструкции пользователю Пользователь Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Зарплата и Управление Персоналом 3.x Россия Абонемент ($m)

Практические советы пользователям по настройке отчетов на СКД. Такие отчеты - как встроенные, так и внешние - используются в современных типовых конфигурациях: УТ 11, КА 2, ERP 2, БП 3.0, ЗУП 3.1 и других.

2 стартмани

11.03.2024 6390 62 accounting_cons 2

Пользовательские настройки отчетов 1С. Часть 2. Группировки и варианты

Инструкции пользователю СКД Бухгалтер Пользователь Платформа 1С v8.3 1C:Бухгалтерия 1С:Бухгалтерия 3.0 Россия Бесплатно (free)

Простые приемы работы с отчетами на СКД. Что нужно знать пользователю про настройку отчетов, чтобы использовать их на полную катушку, – продолжение.

16.10.2023 26521 accounting_cons 14

Пользовательские настройки отчетов 1С. Часть 1. Простые и расширенные настройки

СКД Инструкции пользователю Бизнес-аналитик Бухгалтер Пользователь Стажер Платформа 1С v8.3 1C:Бухгалтерия 1С:Бухгалтерия 3.0 Россия Бесплатно (free)

Простые приемы работы с отчетами на СКД. Что нужно знать пользователю про настройку отчетов, чтобы использовать их на полную катушку.

18.09.2023 23005 accounting_cons 12

Оплата счетов в 1С:Бухгалтерии

Взаиморасчеты Инструкции пользователю Бухгалтер Пользователь Платформа 1С v8.3 Бухгалтерский учет 1С:Бухгалтерия 3.0 Россия Бухгалтерский учет Бесплатно (free)

Обзор типовых возможностей «1С:Бухгалтерии» по контролю за оплатой счетов, а также примеры использования регистров типовой конфигурации для создания собственных отчетов.

16.05.2023 22426 accounting_cons 4

Комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. capitan 2489 02.09.19 12:59 Сейчас в теме

Из серии - кто знает - тот поймет )

Спасибо

Оставьте свое сообщение

E-mail:

Автор:

Антон Бордачев (borda4ev)

Рейтинг: 16

Для получения уведомлений о новых публикациях автора подключите телеграм бот: Инфостарт бот

Публикация:

№ 1113037

Создание 25.08.19 15:00

Обновление 25.08.19 15:00

Статистика:

Просмотры 5234

Загрузки 0

Рейтинг 16

Комментарии 1

Характеристики:

Код открыт Да

Рубрики Инструкции пользователю

Кому Для всех

Тип файла Нет файла

Платформа Не имеет значения

Конфигурация Универсальные

Операционная система Не имеет значения

Страна Россия

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Бесплатно (free)