gifts2017

Обработка распознает (читает) PDF- файл

Опубликовал Евгений К (John_d) в раздел Обмен - Обмен с другими системами

Обработка распознает (читает) PDF- файл

Пригодится тем, кто хочет вытащить текстовую информацию из PDF - файла.

Скачать файлы

Наименование Файл Версия Размер Кол. Скачив.
ПрочитатьПДФ.epf
.epf 430,28Kb
23.08.16
775
.epf 430,28Kb 775 Скачать
ПрочитатьПДФ_УФ.epf
.epf 431,73Kb
23.08.16
8
.epf 431,73Kb 8 Скачать

См. также

Подписаться Добавить вознаграждение

Комментарии

1. Serj (Serj1C) 05.06.12 12:47
почему бы в описании не рассказать про механизм получения текста?
dour-dead; Open-BS; adminfo2002; necropunk; +4 Ответить 1
2. Ийон Тихий (cool.vlad4) 05.06.12 13:01
(1) автор использует xpdf - а также наклепал свою программу, которая просто запускает pdftotext без консольного окна. когда мне надо было рендерить в картинки pdf , я использовал подобным образом pdftoimage, потом написал ВК на шарпе + xpdf, потом и этот способ не устроил , сделал клиенту на native api и на mupdf.

PS нафига я эту муру скачал?
sasha777666; DrAku1a; ZOMI; SirYozha; slavik27; Yashazz; адуырщдв; pumbaE; Serj1C; +9 Ответить
3. Евгений К (John_d) 05.06.12 13:45
На практике использую ее так. Эту обработку включил в конфигурацию, процедуру из формы прописал в модуле, как экспортную функцию с параметром полное имя файла. И из любого места конфигурации вызываю ее для поиска серийного номера который спрятан в тексте pdf файла.
4. Андрей Крутских (K_A_O) 05.06.12 15:43
А нельзя поставить PDF IFilter и использовать ИзвлечениеТекста?
5. Евгений К (John_d) 05.06.12 18:27
+ этой обработки, что ничего не надо ставить.
6. Алексей Прилепский (IamAlexy) 06.06.12 15:21
со сканированными PDF (картинка) облом ?
7. Ийон Тихий (cool.vlad4) 06.06.12 15:26
(6) конечно, xpdf парсер pdf, а не распознавалка картинок)))
9. Сергей (Che) Коцюра (CheBurator) 06.06.12 15:46
текст извлечь неинтересно.. вот если бы она таблицы извлекала корректно... причем разного вида... с разлиновкой и без... вот это да.. было бы мощно...
10. Алексей Прилепский (IamAlexy) 06.06.12 16:33
(7) хых.. большинство ПДФов котрые гуляют по емейлам - это "картинки" которые были нагенерены всякими биопдф или вообеще тупые сканы...
11. Евгений Рачковский (eugen91) 07.06.12 13:42
То что надо! Долго искал подобную обработку
12. OldthiefXXX OldthiefXXX (OldthiefXXX) 07.06.12 15:24
Сам сижу над такой же разработкой, загрузка прайсов из PDF с картинками, с качаю гляну.
13. Ийон Тихий (cool.vlad4) 07.06.12 15:42
(10) ну дык универсальной распознавалки не существует, - если очень хочется можно пробовать всякие бесплатные OCR системы ,но сразу скажу они все как правило отстойные в данной задаче. Можно купить fine reader (у него есть сервер автоматизации FineReader.Application) и прикрутить к 1С-ке. Но и он будет не всегда работать как надо(будут ошибки распознавания). Стоит задуматься, а правильно организована работа, если от распознавания неких документов зависит её процесс? Может лучше перевести все в электронный оборот и не париться?
Бурухтан Второй Второй; 1cspecialist; +2 Ответить
14. OldthiefXXX OldthiefXXX (OldthiefXXX) 08.06.12 10:12
Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.
15. Олег Шалимов (CaSH_2004) 08.06.12 11:34
(9) В любом случае полезная вещь, если у кого-то есть круче - выкладывайте!
Автор - молодец! вроде такого тут не выкладывали еще
16. Ийон Тихий (cool.vlad4) 08.06.12 11:52
(15) в чем он молодец? в том, что нарушает лицензионное соглашение http://www.foolabs.com/xpdf/about.html ?
17. Евгений К (John_d) 08.06.12 12:12
(14)GNU General Public License
http://ru.wikipedia.org/wiki/GNU_General_Public_License
я название программы в макете не скрыл.
19. Ийон Тихий (cool.vlad4) 08.06.12 12:16
(18) pdftotext что ли? издеваешься? там черным по белому написано
If you are redistributing unmodified copies of Xpdf (or any of the Xpdf tools) in binary form, you need to include all of the documentation: README, man pages (or help files), and COPYING. The README file contains a pointer to a web page with the source code, which satisfies the GPL requirement as far as I am concerned. You are, of course, welcome to distribute the source code as well.

т.е. надо было включить всю документацию, файлы COPYING, README , а главное ссылку на исходники автора. мне-то как-то все равно, но меня бесит одно , в публикации об этом ни слова, ни ссылки, типа ты сам это сделал, хотя вся твоя работа заключается просто в вызове чужой программы.
20. Евгений К (John_d) 08.06.12 12:28
(19)эту программу нашел в таком виде как она у меня в макете. Никаких README там не было, где я ее нашел.
Если разработчик ее http://www.foolabs.com/xpdf, то пожалуйста вот ссылка на разработчика.
21. OldthiefXXX OldthiefXXX (OldthiefXXX) 08.06.12 18:06
Ладно вам не судите строго то человек все таки старался.
22. Олег Шалимов (CaSH_2004) 08.06.12 18:30
(19) Ну тут не все твоего уровня, я так вообще не читаю эти Readme ни на английсом ни на русском :)
Зато человек работал и делиться результатом. Объясни ошибку ему, раз он не в курсе. А наезжать то за что? Он же милионов на бесплатной чужой разработке не заработал.
Хотя я согласен что нужно указывать подробно
23. Ivan Migov (navi) 12.06.12 14:12
А таблицу нормально распознает?
24. Евгений К (John_d) 14.06.12 17:35
(23)распознает только текст
25. Vladimir Иванов (brunet) 14.06.12 20:10
легче будет если конвертировать pdf в excel,word или тексовый файл.
26. Александр Овсянников (_LEV_) 15.06.12 16:33
OldthiefXXX (файл скачал) 08.06.12 10:12URL
Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.

Давай, будем ждать твоего шедевра;)
27. Евгений Сущенков (Jonny_wk) 17.06.12 19:33
Надо будет попробовать... потом дам оценку
28. rsb rsb (fibrsb) 19.06.12 10:39
Хотелось бы более детального описания. А вещь полезная.
29. Владимир Насыров (Spacer) 19.06.12 11:27
Заглянул в код этой обработки и обнаружил нечто несуразное:

Процедура Кнопка1Нажатие(Элемент)

	...
	
	МакетУтилиты = ОбработкаОбъект.ПолучитьМакет("pdftotext");
	Адрес = ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);
	ФайлУтилиты1 = КаталогВременныхФайлов + "pdftotext.exe";
        ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);
	УдалитьИзВременногоХранилища(Адрес);
	ДанныеХранилища.Записать(ФайлУтилиты1);
	
КонецПроцедуры
...Показать Скрыть


МакетУтилиты - это ДвоичныеДанные. Зачем их гонять во временное хранилище и обратно, когда их можно сразу записать в файл на диск?
30. Armando Armando (Armando) 23.06.12 15:15
31. Евгений К (John_d) 25.06.12 15:10
(30)+ этой обработки, что ничего не надо ставить.
32. Галина Орехова (orehova123) 25.06.12 17:21
ну раз ничего не надо ставить дополнительного, то плюсую. скачаю позже, посмотрю, уже есть мысли, куда это можно прикрутить
33. Евгений К (John_d) 25.06.12 17:41
34. f f (fnv) 28.06.12 16:48
Интересно, спасибо.
35. Александр Федоров (Sasha255n) 30.06.12 14:36
Плюс если ничего не надо дополнительного А вообще то я думал что AcrobatReader бесплатное приложение наверное ошибался.
36. Мария Дорошенко (maria7777777) 27.07.12 11:44
хорошая обработка, как то что доктор прописал. правда тестировала на большом pdf файлике - долго ждать пришлось
37. sumixam (sumixam) 27.07.12 15:24
обработка хорошая пригодилась
38. Евгений Палагин (Jon2011) 18.09.12 06:58
Если я встрою эту обработку в свою конфигурацию, куда нужно записывать авторскую информацию? И чью?
39. Анна Герасимова (Anna_G) 28.09.12 10:16
Спасибо. Довольно интересное решение.
40. Vladimir Иванов (brunet) 06.11.12 18:21
а нельзя просто переформировать файл в другой текстовый формат. программ для этого в интернете 1000.
41. Евгений Рачковский (eugen91) 06.11.12 18:31
О! то что искали, будем пробовать, спасибо. Позже поделюсь опытом использования.
43. Сергей Радченко (Rad90210) 13.11.12 14:21
Плюс! Но неплохо было бы развить идею в работу с документами ...
44. Сергей Гладышев (SergeyGladyshev) 26.11.12 12:12
очень полезная обработка, автору респект!
45. Евгений Рачковский (eugen91) 04.12.12 20:13
Можно извлечь непосредственно сам текст? как дела обстоят с графиками?
46. Александр Федоров (Sasha255n) 10.12.12 23:09
Да как раз примерно это я и искад попрогбую прикрутить к свей базе.
47. Евгений Рачковский (eugen91) 04.01.13 13:19
Не вижу смысла данной обработки
48. Сергей (SeverBaP) 21.02.13 11:46
Все что доктор прописал хотя пришлось немного под свои нужды переделать
49. apalon_pss (pavel_pss) 08.04.13 15:53
Спасибо, то что нужно и спасибо за открытй код.
50. ValeriTim (ValeriTim) 28.08.13 13:56
51. Светлана Даниленко (LanaSN) 12.09.13 11:47
Спасибо, очень нужная обработка, экономит время для открытия таких файлов в других программах!
52. Макс Зеленский (mzelensky) 23.10.13 09:12
Замечательнейшая штуковинка!
53. pose 24.10.13 16:18
Спасибо, то что нужно .
54. Максим Кузнецов (MakcTLT63) 15.11.13 08:38
Не понял что делает обработка? Распознает текст? Реализован FineReader на 1с?
зы. Обработку не качал..
55. Максим Кузнецов (MakcTLT63) 18.11.13 11:30
Почитал комментарии, вопрос снимается.
56. Denis Ляхов (ded20ded) 18.11.13 14:10
Спасибо, большое, то что как раз сегодня понадобилось
58. Дамир Закиров (Dzenn) 02.12.13 15:34
Скорее всего, внутри обработки простое ИзвлечениеТекста(), о котором просто ещё не все знают
59. Лера (Lerusena) 08.12.13 15:27
От души огромное спасибо! С небольшой дорабткой помогла решить ну оочень давно не решаемую проблему, освободила от рутины и дала кучу свободного времени! Огромный респект!!!!
60. Евгений Банщиков (jonybanchicov) 09.12.13 18:41
61. Alexandr Климчук (undo) 29.12.13 20:35
Хорошее простое решение достаточно простой задачи, простой на первый взгляд, и достаточно часто нужно извлечь текст из PDF, а до графики это уже второй момент. То что ничего ставить дополнительно не нужно это хорошо.
62. Андрей Штоколов (Alfer) 10.01.14 08:47
спасибо очень нужно
63. Андрей Штоколов (Alfer) 17.01.14 08:50
не открывается Неверный формат хранилища данных 'file://C:/ПрочитатьПДФ.epf
64. Андрей Штоколов (Alfer) 17.01.14 08:52
скачалось всего 324K - не могли бы вы прислать на почту повторно ( а то я пустой)
65. Евгений К (John_d) 29.01.14 17:44
Протестировал файл обработки. он нормально скачивается и работает.
67. Андрей Акулов (DrAku1a) 08.12.14 14:44
Почему модераторы пропускают абсолютно ненужные публикации с описанием обработки - в одну строку?
68. Anatoliy (NOVOPRO) 11.12.14 07:04
Лажа полная, используй стандартные проги и все нормально будет
69. Anatoliy (NOVOPRO) 11.12.14 07:28
Забавная штука гоняет, данные по сто раз из одного раздела в другой...... Только съедает системные ресурсы:

МакетУтилиты = ОбработкаОбъект.ПолучитьМакет("pdftotext");
= ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);
ФайлУтилиты1 = КаталогВременныхФайлов + "pdftotext.exe";
ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);
УдалитьИзВременногоХранилища(Адрес);
ДанныеХранилища.Записать(ФайлУтилиты1);
.............................
70. Алексей Ахмадеев (Alexey_A) 08.12.15 10:48
Для написания сообщения необходимо авторизоваться
Прикрепить файл
Дополнительные параметры ответа