Извлечение фрагментов html страницы с помощью выражений xpath

04.08.15

Интеграция - WEB-интеграция

Данная обработка (управляемая форма) позволяет извлекать фрагменты html страницы. Для работы понадобится url целевой страницы и выражение поиска. Если у вас используется проски сервер для выхода в интернет, то есть возможность указать его реквизиты. Вывод результатов поиска происходит в текстовый документ на закладке "результат".

Скачать файлы

Наименование Файл Версия Размер
ИзвлечениеФрагметовHtmlСтраниц.epf
.epf 18,22Kb
16
.epf 18,22Kb 16 Скачать

Данный интрумент возможно будет полезен тем, кто занимается парсингом сайтов. У меня же часто возникала задача извлечь все ссылки из страницы сайта по определенному фильтру. Порядок работы у обработки следующий:

  1. Обработка загружает страницу в сыром (строковом) виде http запросом GET.
  2. Обработка создает на основе строки страницы объект html.
  3. Обработка копирует теги тела html документа и их атрибуты в документ DOM.
  4. С помощью выражения поиска ищутся фрагменты и помещаются в массив.
  5. Элементы массива выводятся в результат (текстовый документ). Если массив найденных элементов пустой, тогда выводится документ dom в виде xml. В дальнейшем xml можно обработать (протестировать) сторонними инструментами.

Тестирование с прокси сервером не проводил, потому как нет такого окружения. Если у вас не отрабатывает xpath запрос, то возможно, что запрос не верен, а также страница подгружается фрагментами к основной, то есть этих фрагментов просто нет. В конце концов это не браузер, а объект hhtp соединение. К обработке я написал небольшую справку, где есть примеры выражений xpath. Обработка самодостаточна и запустится даже в пустой конфигурации. Собствено суть этой разработки в ориганальности идеи переноса тегов документа html в документ dom, в котором и возможна работа с выражениями поиска xpath. Кроме того, ряд процедур и функций я использую как универсальные.

Парсинг http HTTPСоединение html xpath

См. также

Интеграция Альфа Авто 5 / Альфа Авто 6 и AUTOCRM / Инфотек

Сайты и интернет-магазины WEB-интеграция Платформа 1С v8.3 Конфигурации 1cv8 1С:Управление торговлей 11 Автомобили, автосервисы Россия Управленческий учет Платные (руб)

Интеграционный модуль обмена между конфигурацией Альфа Авто 5 и Альфа Авто 6 и порталом AUTOCRM. Данный модуль универсален. Позволяет работать с несколькими обменами AUTOCRM разных брендов в одной информационной базе в ручном и автоматическом режиме.

36000 руб.

03.08.2020    15746    10    17    

11

Интеграция 1С — Битрикс24. Обмен задачами

Сайты и интернет-магазины Интеграция WEB-интеграция Платформа 1С v8.3 Конфигурации 1cv8 Управленческий учет Платные (руб)

Интеграция 1С и Битрикс24. Разработка имеет двухстороннюю синхронизацию 1С и Битрикс24 задачами. Решение позволяет создавать пользователя в 1С из Битрикс24 и наоборот. Данная разработка технически подходит под все основные конфигурации линейки продуктов 1С:Предприятие 8.3 (8.3.18.1289). При приобретении предоставляется 1 месяц бесплатных обновлений разработки. Доступна демо-версия продукта с подключением Вашего Битрикс24

5040 руб.

04.05.2021    17548    6    15    

13

Интеграция с сервисом vetmanager

WEB-интеграция Платформа 1С v8.3 Бухгалтерский учет 1С:Бухгалтерия 3.0 Бытовые услуги, сервис Платные (руб)

Внешняя обработка разрабатывалась для загрузки документов из Ветменеджер в 1С: Бухгалтерия 3.0

12000 руб.

02.02.2021    16359    42    49    

23

[Расширение] БОР-Навигатор.Культура

Зарплата Бюджетный учет WEB-интеграция Обмен с ГосИС Платформа 1С v8.3 Сложные периодические расчеты 1С:Зарплата и кадры государственного учреждения 3 Государственные, бюджетные структуры Россия Бюджетный учет Платные (руб)

Расширение конфигурации, включающее в себя объекты, необходимые для подготовки и сдачи отчета "Штатная численность" системы "БОР-Навигатор.Культура" в программе "1С:Зарплата и кадры государственного учреждения", редакция 3.1.

8400 руб.

01.02.2019    25741    9    0    

7

Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС

Обмен с ГосИС WEB-интеграция Платформа 1С v8.3 Управляемые формы 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия государственного учреждения 1С:Документооборот 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Платные (руб)

Обработка является альтернативой механизму, разработанному фирмой 1С и заполняющему реквизиты контрагента по ИНН или наименованию. Не требуется действующей подписки ИТС. Вызывается как внешняя дополнительная обработка, т.е. используется, непосредственно, из карточки контрагента. Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС (egrul.nalog.ru) для БП 2.0, БП 3.0, БГУ 1.0, БГУ 2.0, УТ 10.3, УТ 11.x, КА 1.1, КА 2.x, УПП 1.x, ERP 2.x, УНФ 1.5, УНФ 1.6, УНФ 3.0, ДО 2.1

2400 руб.

28.04.2016    88579    160    215    

318
Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. AlX0id 05.08.15 10:38 Сейчас в теме
Блин, я уж подумал, 1сники наконец сделали xpath в html.. Крутая обработка, наверное, но все-таки получается так, что надо пересобрать дерево документа после его загрузки, а это дополнительные временные и вычислительные затраты..
2. makc2k 107 05.08.15 12:13 Сейчас в теме
Ничего не поделаешь, пока объектная модель документа html весьма скудна. Да собственно это второстепенный объект.
3. serega_new 15.09.15 17:49 Сейчас в теме
выложите плз в открытый доступ, хочется потестить)
4. makc2k 107 16.09.15 21:43 Сейчас в теме
Функция поиска с помощью xpath : Xpath

Процедура копирования (рекурсивного) из одного dom или html объекта в другой: Копирование
Оставьте свое сообщение