gifts2017

Извлечение фрагментов html страницы с помощью выражений xpath

Опубликовал Makc *** (makc2k) в раздел Сообщество - Архив

Данная обработка (управляемая форма) позволяет извлекать фрагменты html страницы. Для работы понадобится url целевой страницы и выражение поиска. Если у вас используется проски сервер для выхода в интернет, то есть возможность указать его реквизиты. Вывод результатов поиска происходит в текстовый документ на закладке "результат".

Данный интрумент возможно будет полезен тем, кто занимается парсингом сайтов. У меня же часто возникала задача извлечь все ссылки из страницы сайта по определенному фильтру. Порядок работы у обработки следующий:

  1. Обработка загружает страницу в сыром (строковом) виде http запросом GET.
  2. Обработка создает на основе строки страницы объект html.
  3. Обработка копирует теги тела html документа и их атрибуты в документ DOM.
  4. С помощью выражения поиска ищутся фрагменты и помещаются в массив.
  5. Элементы массива выводятся в результат (текстовый документ). Если массив найденных элементов пустой, тогда выводится документ dom в виде xml. В дальнейшем xml можно обработать (протестировать) сторонними инструментами.

Тестирование с прокси сервером не проводил, потому как нет такого окружения. Если у вас не отрабатывает xpath запрос, то возможно, что запрос не верен, а также страница подгружается фрагментами к основной, то есть этих фрагментов просто нет. В конце концов это не браузер, а объект hhtp соединение. К обработке я написал небольшую справку, где есть примеры выражений xpath. Обработка самодостаточна и запустится даже в пустой конфигурации. Собствено суть этой разработки в ориганальности идеи переноса тегов документа html в документ dom, в котором и возможна работа с выражениями поиска xpath. Кроме того, ряд процедур и функций я использую как универсальные.

Скачать файлы

Наименование Файл Версия Размер Кол. Скачив.
ИзвлечениеФрагметовHtmlСтраниц.epf
.epf 18,22Kb
04.08.15
5
.epf 18,22Kb 5 Скачать

См. также

Подписаться Добавить вознаграждение

Комментарии

1. Алексей 1 (AlX0id) 05.08.15 10:38
Блин, я уж подумал, 1сники наконец сделали xpath в html.. Крутая обработка, наверное, но все-таки получается так, что надо пересобрать дерево документа после его загрузки, а это дополнительные временные и вычислительные затраты..
2. Makc *** (makc2k) 05.08.15 12:13
Ничего не поделаешь, пока объектная модель документа html весьма скудна. Да собственно это второстепенный объект.
3. Серега Сергейич (serega33) 15.09.15 17:49
выложите плз в открытый доступ, хочется потестить)
4. Makc *** (makc2k) 16.09.15 21:43
Функция поиска с помощью xpath : Xpath

Процедура копирования (рекурсивного) из одного dom или html объекта в другой: Копирование
Для написания сообщения необходимо авторизоваться
Прикрепить файл
Дополнительные параметры ответа