INFOSTART EVENT 2018 EDUCATION

Второй тур голосования за доклады.
Окончание 5 сентября.

Крючков Владимир | Начальник сектора разработки | ООО "Группа Полипластик"

«Как мы разрабатываем в EDT»

1. Ответим на вопрос как мы переходили на разработку в EDT. Где было больно и что стало лучше? Где светлое будущее? 2. Расскажем про использование процессов разработки для коммерческих продуктов и open source. Что такое «Git Flow», «Git Lab Flow» и «Git Hub Flow» в чем их отличие и в чем сила? 3. Командная разработка в новых реалиях: Где и как нам помогает SCRUM? Как и где используем KANBAN? Нужно ли следовать за белым кроликом? 4. Про системы баг трекинга: Интеграция с системами баг трекинга для коммерческих решений на примере JIRA. Достаточно ли возможностей «Git Hub Issue» для open source? 5. Про репозитарии: Какой репозитарий выбрать? Что такое «bitbucket», «github» и что они умеют? Как все это увязать с EDT и баг трекингом? Когда использовать приватные, а когда публичные хранилища? 6. Используем новые волшебные возможности: автосборка релиза, code review, pull request, ветвление (bruches) и др. Как именовать ветки и что писать в коммитах чтобы получить профит. 7. Немного про качество продукта: Как мы запускаем тесты при разработке в EDT? Как используем open source Фреймворк «Тестирование 3.0»?

Извлечение фрагментов html страницы с помощью выражений xpath

Сообщество - Архив

3
Данная обработка (управляемая форма) позволяет извлекать фрагменты html страницы. Для работы понадобится url целевой страницы и выражение поиска. Если у вас используется проски сервер для выхода в интернет, то есть возможность указать его реквизиты. Вывод результатов поиска происходит в текстовый документ на закладке "результат".

Данный интрумент возможно будет полезен тем, кто занимается парсингом сайтов. У меня же часто возникала задача извлечь все ссылки из страницы сайта по определенному фильтру. Порядок работы у обработки следующий:

  1. Обработка загружает страницу в сыром (строковом) виде http запросом GET.
  2. Обработка создает на основе строки страницы объект html.
  3. Обработка копирует теги тела html документа и их атрибуты в документ DOM.
  4. С помощью выражения поиска ищутся фрагменты и помещаются в массив.
  5. Элементы массива выводятся в результат (текстовый документ). Если массив найденных элементов пустой, тогда выводится документ dom в виде xml. В дальнейшем xml можно обработать (протестировать) сторонними инструментами.

Тестирование с прокси сервером не проводил, потому как нет такого окружения. Если у вас не отрабатывает xpath запрос, то возможно, что запрос не верен, а также страница подгружается фрагментами к основной, то есть этих фрагментов просто нет. В конце концов это не браузер, а объект hhtp соединение. К обработке я написал небольшую справку, где есть примеры выражений xpath. Обработка самодостаточна и запустится даже в пустой конфигурации. Собствено суть этой разработки в ориганальности идеи переноса тегов документа html в документ dom, в котором и возможна работа с выражениями поиска xpath. Кроме того, ряд процедур и функций я использую как универсальные.

3

Скачать файлы

Наименование Файл Версия Размер
ИзвлечениеФрагметовHtmlСтраниц.epf
.epf 18,22Kb
04.08.15
7
.epf 18,22Kb 7 Скачать
Комментарии
Сортировка: Древо
1. AlX0id 05.08.15 10:38 Сейчас в теме
Блин, я уж подумал, 1сники наконец сделали xpath в html.. Крутая обработка, наверное, но все-таки получается так, что надо пересобрать дерево документа после его загрузки, а это дополнительные временные и вычислительные затраты..
2. makc2k 58 05.08.15 12:13 Сейчас в теме
Ничего не поделаешь, пока объектная модель документа html весьма скудна. Да собственно это второстепенный объект.
3. serega33 15.09.15 17:49 Сейчас в теме
выложите плз в открытый доступ, хочется потестить)
4. makc2k 58 16.09.15 21:43 Сейчас в теме
Функция поиска с помощью xpath : Xpath

Процедура копирования (рекурсивного) из одного dom или html объекта в другой: Копирование
Оставьте свое сообщение