bdd2

Обработка распознает (читает) PDF- файл

Опубликовал Евгений К (John_d) в раздел Обмен - Обмен с другими системами

Обработка распознает (читает) PDF- файл

Пригодится тем, кто хочет вытащить текстовую информацию из PDF - файла.

Скачать файлы

Наименование Файл Версия Размер
ПрочитатьПДФ.epf
.epf 430,28Kb
23.08.16
779
.epf 430,28Kb 779 Скачать
ПрочитатьПДФ_УФ.epf
.epf 431,73Kb
23.08.16
12
.epf 431,73Kb 12 Скачать

См. также

Добавить вознаграждение
Комментарии
1. Serj (Serj1C) 458 05.06.12 12:47 Сейчас в теме
почему бы в описании не рассказать про механизм получения текста?
dour-dead; Open-BS; adminfo2002; necropunk; +4 Ответить 1
2. Ийон Тихий (cool.vlad4) 41 05.06.12 13:01 Сейчас в теме
(1) автор использует xpdf - а также наклепал свою программу, которая просто запускает pdftotext без консольного окна. когда мне надо было рендерить в картинки pdf , я использовал подобным образом pdftoimage, потом написал ВК на шарпе + xpdf, потом и этот способ не устроил , сделал клиенту на native api и на mupdf.

PS нафига я эту муру скачал?
sasha777666; DrAku1a; ZOMI; SirYozha; slavik27; Yashazz; адуырщдв; pumbaE; Serj1C; +9 Ответить
3. Евгений К (John_d) 219 05.06.12 13:45 Сейчас в теме
На практике использую ее так. Эту обработку включил в конфигурацию, процедуру из формы прописал в модуле, как экспортную функцию с параметром полное имя файла. И из любого места конфигурации вызываю ее для поиска серийного номера который спрятан в тексте pdf файла.
4. Андрей Крутских (K_A_O) 475 05.06.12 15:43 Сейчас в теме
А нельзя поставить PDF IFilter и использовать ИзвлечениеТекста?
5. Евгений К (John_d) 219 05.06.12 18:27 Сейчас в теме
+ этой обработки, что ничего не надо ставить.
6. Алексей Прилепский (IamAlexy) 489 06.06.12 15:21 Сейчас в теме
со сканированными PDF (картинка) облом ?
7. Ийон Тихий (cool.vlad4) 41 06.06.12 15:26 Сейчас в теме
(6) конечно, xpdf парсер pdf, а не распознавалка картинок)))
9. Сергей (Che) Коцюра (CheBurator) 3366 06.06.12 15:46 Сейчас в теме
текст извлечь неинтересно.. вот если бы она таблицы извлекала корректно... причем разного вида... с разлиновкой и без... вот это да.. было бы мощно...
10. Алексей Прилепский (IamAlexy) 489 06.06.12 16:33 Сейчас в теме
(7) хых.. большинство ПДФов котрые гуляют по емейлам - это "картинки" которые были нагенерены всякими биопдф или вообеще тупые сканы...
11. Евгений Рачковский (eugen91) 07.06.12 13:42 Сейчас в теме
То что надо! Долго искал подобную обработку
12. OldthiefXXX OldthiefXXX (OldthiefXXX) 139 07.06.12 15:24 Сейчас в теме
Сам сижу над такой же разработкой, загрузка прайсов из PDF с картинками, с качаю гляну.
13. Ийон Тихий (cool.vlad4) 41 07.06.12 15:42 Сейчас в теме
(10) ну дык универсальной распознавалки не существует, - если очень хочется можно пробовать всякие бесплатные OCR системы ,но сразу скажу они все как правило отстойные в данной задаче. Можно купить fine reader (у него есть сервер автоматизации FineReader.Application) и прикрутить к 1С-ке. Но и он будет не всегда работать как надо(будут ошибки распознавания). Стоит задуматься, а правильно организована работа, если от распознавания неких документов зависит её процесс? Может лучше перевести все в электронный оборот и не париться?
Бурухтан Второй Второй; 1cspecialist; +2 Ответить
14. OldthiefXXX OldthiefXXX (OldthiefXXX) 139 08.06.12 10:12 Сейчас в теме
Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.
15. Олег Шалимов (CaSH_2004) 341 08.06.12 11:34 Сейчас в теме
(9) В любом случае полезная вещь, если у кого-то есть круче - выкладывайте!
Автор - молодец! вроде такого тут не выкладывали еще
16. Ийон Тихий (cool.vlad4) 41 08.06.12 11:52 Сейчас в теме
(15) в чем он молодец? в том, что нарушает лицензионное соглашение http://www.foolabs.com/xpdf/about.html ?
17. Евгений К (John_d) 219 08.06.12 12:12 Сейчас в теме
(14)GNU General Public License
http://ru.wikipedia.org/wiki/GNU_General_Public_License
я название программы в макете не скрыл.
18. Евгений К (John_d) 219 08.06.12 12:12 Сейчас в теме
19. Ийон Тихий (cool.vlad4) 41 08.06.12 12:16 Сейчас в теме
(18) pdftotext что ли? издеваешься? там черным по белому написано
If you are redistributing unmodified copies of Xpdf (or any of the Xpdf tools) in binary form, you need to include all of the documentation: README, man pages (or help files), and COPYING. The README file contains a pointer to a web page with the source code, which satisfies the GPL requirement as far as I am concerned. You are, of course, welcome to distribute the source code as well.

т.е. надо было включить всю документацию, файлы COPYING, README , а главное ссылку на исходники автора. мне-то как-то все равно, но меня бесит одно , в публикации об этом ни слова, ни ссылки, типа ты сам это сделал, хотя вся твоя работа заключается просто в вызове чужой программы.
20. Евгений К (John_d) 219 08.06.12 12:28 Сейчас в теме
(19)эту программу нашел в таком виде как она у меня в макете. Никаких README там не было, где я ее нашел.
Если разработчик ее http://www.foolabs.com/xpdf, то пожалуйста вот ссылка на разработчика.
21. OldthiefXXX OldthiefXXX (OldthiefXXX) 139 08.06.12 18:06 Сейчас в теме
Ладно вам не судите строго то человек все таки старался.
22. Олег Шалимов (CaSH_2004) 341 08.06.12 18:30 Сейчас в теме
(19) Ну тут не все твоего уровня, я так вообще не читаю эти Readme ни на английсом ни на русском :)
Зато человек работал и делиться результатом. Объясни ошибку ему, раз он не в курсе. А наезжать то за что? Он же милионов на бесплатной чужой разработке не заработал.
Хотя я согласен что нужно указывать подробно
23. Ivan Migov (navi) 12.06.12 14:12 Сейчас в теме
А таблицу нормально распознает?
24. Евгений К (John_d) 219 14.06.12 17:35 Сейчас в теме
(23)распознает только текст
25. Vladimir Иванов (brunet) 20 14.06.12 20:10 Сейчас в теме
легче будет если конвертировать pdf в excel,word или тексовый файл.
26. Александр Овсянников (_LEV_) 15.06.12 16:33 Сейчас в теме
OldthiefXXX (файл скачал) 08.06.12 10:12URL
Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.

Давай, будем ждать твоего шедевра;)
27. Евгений Сущенков (Jonny_wk) 17.06.12 19:33 Сейчас в теме
Надо будет попробовать... потом дам оценку
28. rsb rsb (fibrsb) 19.06.12 10:39 Сейчас в теме
Хотелось бы более детального описания. А вещь полезная.
29. Владимир Насыров (Spacer) 243 19.06.12 11:27 Сейчас в теме
Заглянул в код этой обработки и обнаружил нечто несуразное:

Процедура Кнопка1Нажатие(Элемент)

	...
	
	МакетУтилиты = ОбработкаОбъект.ПолучитьМакет("pdftotext");
	Адрес = ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);
	ФайлУтилиты1 = КаталогВременныхФайлов + "pdftotext.exe";
        ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);
	УдалитьИзВременногоХранилища(Адрес);
	ДанныеХранилища.Записать(ФайлУтилиты1);
	
КонецПроцедуры
...Показать Скрыть


МакетУтилиты - это ДвоичныеДанные. Зачем их гонять во временное хранилище и обратно, когда их можно сразу записать в файл на диск?
30. Armando Armando (Armando) 1369 23.06.12 15:15 Сейчас в теме
31. Евгений К (John_d) 219 25.06.12 15:10 Сейчас в теме
(30)+ этой обработки, что ничего не надо ставить.
32. Галина Орехова (orehova123) 25.06.12 17:21 Сейчас в теме
ну раз ничего не надо ставить дополнительного, то плюсую. скачаю позже, посмотрю, уже есть мысли, куда это можно прикрутить
33. Евгений К (John_d) 219 25.06.12 17:41 Сейчас в теме
34. f f (fnv) 28.06.12 16:48 Сейчас в теме
Интересно, спасибо.
35. Александр Федоров (Sasha255n) 30.06.12 14:36 Сейчас в теме
Плюс если ничего не надо дополнительного А вообще то я думал что AcrobatReader бесплатное приложение наверное ошибался.
36. Мария Дорошенко (maria7777777) 14 27.07.12 11:44 Сейчас в теме
хорошая обработка, как то что доктор прописал. правда тестировала на большом pdf файлике - долго ждать пришлось
37. sumixam (sumixam) 27.07.12 15:24 Сейчас в теме
обработка хорошая пригодилась
38. Евгений Палагин (Jon2011) 73 18.09.12 06:58 Сейчас в теме
Если я встрою эту обработку в свою конфигурацию, куда нужно записывать авторскую информацию? И чью?
39. Анна Герасимова (Anna_G) 28.09.12 10:16 Сейчас в теме
Спасибо. Довольно интересное решение.
40. Vladimir Иванов (brunet) 20 06.11.12 18:21 Сейчас в теме
а нельзя просто переформировать файл в другой текстовый формат. программ для этого в интернете 1000.
41. Евгений Рачковский (eugen91) 06.11.12 18:31 Сейчас в теме
О! то что искали, будем пробовать, спасибо. Позже поделюсь опытом использования.
43. Сергей Радченко (Rad90210) 10 13.11.12 14:21 Сейчас в теме
Плюс! Но неплохо было бы развить идею в работу с документами ...
44. Сергей Гладышев (SergeyGladyshev) 26.11.12 12:12 Сейчас в теме
очень полезная обработка, автору респект!
45. Евгений Рачковский (eugen91) 04.12.12 20:13 Сейчас в теме
Можно извлечь непосредственно сам текст? как дела обстоят с графиками?
46. Александр Федоров (Sasha255n) 10.12.12 23:09 Сейчас в теме
Да как раз примерно это я и искад попрогбую прикрутить к свей базе.
47. Евгений Рачковский (eugen91) 04.01.13 13:19 Сейчас в теме
Не вижу смысла данной обработки
48. Сергей Афонькин (SeverBaP) 21.02.13 11:46 Сейчас в теме
Все что доктор прописал хотя пришлось немного под свои нужды переделать
49. apalon_pss (pavel_pss) 08.04.13 15:53 Сейчас в теме
Спасибо, то что нужно и спасибо за открытй код.
50. ValeriTim (ValeriTim) 20 28.08.13 13:56 Сейчас в теме
51. Светлана Даниленко (LanaSN) 12.09.13 11:47 Сейчас в теме
Спасибо, очень нужная обработка, экономит время для открытия таких файлов в других программах!
52. Макс Зеленский (mzelensky) 51 23.10.13 09:12 Сейчас в теме
Замечательнейшая штуковинка!
53. Сергей Пономаренко (pose) 24.10.13 16:18 Сейчас в теме
Спасибо, то что нужно .
54. Имя Фамилия (MakcTLT63) 6 15.11.13 08:38 Сейчас в теме
Не понял что делает обработка? Распознает текст? Реализован FineReader на 1с?
зы. Обработку не качал..
55. Имя Фамилия (MakcTLT63) 6 18.11.13 11:30 Сейчас в теме
Почитал комментарии, вопрос снимается.
56. Denis Ляхов (ded20ded) 18.11.13 14:10 Сейчас в теме
Спасибо, большое, то что как раз сегодня понадобилось
58. Дамир Закиров (Dzenn) 22 02.12.13 15:34 Сейчас в теме
Скорее всего, внутри обработки простое ИзвлечениеТекста(), о котором просто ещё не все знают
59. Лера (Lerusena) 9 08.12.13 15:27 Сейчас в теме
От души огромное спасибо! С небольшой дорабткой помогла решить ну оочень давно не решаемую проблему, освободила от рутины и дала кучу свободного времени! Огромный респект!!!!
60. Евгений Банщиков (jonybanchicov) 6 09.12.13 18:41 Сейчас в теме
61. Alexandr Климчук (undo) 29.12.13 20:35 Сейчас в теме
Хорошее простое решение достаточно простой задачи, простой на первый взгляд, и достаточно часто нужно извлечь текст из PDF, а до графики это уже второй момент. То что ничего ставить дополнительно не нужно это хорошо.
62. Андрей Штоколов (Alfer) 10.01.14 08:47 Сейчас в теме
спасибо очень нужно
63. Андрей Штоколов (Alfer) 17.01.14 08:50 Сейчас в теме
не открывается Неверный формат хранилища данных 'file://C:/ПрочитатьПДФ.epf
64. Андрей Штоколов (Alfer) 17.01.14 08:52 Сейчас в теме
скачалось всего 324K - не могли бы вы прислать на почту повторно ( а то я пустой)
65. Евгений К (John_d) 219 29.01.14 17:44 Сейчас в теме
Протестировал файл обработки. он нормально скачивается и работает.
67. Андрей Акулов (DrAku1a) 1182 08.12.14 14:44 Сейчас в теме
Почему модераторы пропускают абсолютно ненужные публикации с описанием обработки - в одну строку?
68. Anatoliy (NOVOPRO) 11.12.14 07:04 Сейчас в теме
Лажа полная, используй стандартные проги и все нормально будет
69. Anatoliy (NOVOPRO) 11.12.14 07:28 Сейчас в теме
Забавная штука гоняет, данные по сто раз из одного раздела в другой...... Только съедает системные ресурсы:

МакетУтилиты = ОбработкаОбъект.ПолучитьМакет("pdftotext");
= ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);
ФайлУтилиты1 = КаталогВременныхФайлов + "pdftotext.exe";
ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);
УдалитьИзВременногоХранилища(Адрес);
ДанныеХранилища.Записать(ФайлУтилиты1);
.............................
70. Алексей Ахмадеев (Alexey_A) 7 08.12.15 10:48 Сейчас в теме