Парсер сайта Авто.Ру

Опубликовал Andrey Kolesnikov (Boneman) в раздел Программирование - Практика программирования

Пример парсера сайта auto.ru

Решил попрактиковаться в парсинге сайтов на примере сайта auto.ru.

 

Необходимо задать сформированную ссылку, например, по нужным моделям автомобилей, за сегодняшний день.

Далее переходим к просмотру сайта.

 

Сделал парсинг двумя видами:

  • первый способ, обход непосредственно поля HTML.
  • второй способ, через построитель DOM.

 

Обработка может обходить многостраничные результаты выдачи сайта.

Также умеет заходить в объявления, и забирать из них крупную картинку.

 

Обработка, по сути, является наработкой, на примере которой можно создавать свои собственные парсеры сайтов.

Скачать файлы

Наименование Файл Версия Размер
парсер
.epf 21,41Kb
13.05.15
29
.epf 1_0 21,41Kb 29 Скачать

См. также

Комментарии
1. Andrey Kolesnikov (Boneman) 23 04.06.15 14:57 Сейчас в теме
Информация! На сайте изменились имена классов, и обработка в готовом виде уже не находит объявления. Необходимо заново анализировать структуру сайта, и прописывать имена в обработке. Так, что интерес она может представлять только методический.
2. olo lo (olo_lo4) 07.11.15 03:08 Сейчас в теме
эх, какая интересная обработка, жаль что уже не актуальна...
3. Вячеслав Павелко (slawanix) 9 23.12.15 00:01 Сейчас в теме
В свое время на Delphi пробовал сделать то же самое и уже началось, как мне показалось получаться. Но тоже наткнулся на защиту сайта от парсинга. И смена имен классов - это один из видов защиты у них на сайте. А еще были капчи, запрет на многократные запросы с малой задержкой и многое другое. Очень скоро задвинул на эту тему, не мне бодаться с их защитой. Ибо в этом не силен :))
4. Сергей Маслов (sirm) 4 28.04.16 13:43 Сейчас в теме
Не понятен смысл в 1с-ке делать парсер... для чего?
5. Andrey Kolesnikov (Boneman) 23 28.04.16 15:23 Сейчас в теме
(4) sirm, как зачем. 1С - мощный корпоративный инструмент, в котором работают все пользователи конторы. Почему бы, в рамках соответствующих бизнес процессов, им же и не воспользоваться.
WellMaster; +1 Ответить 1
6. Сергей Маслов (sirm) 4 25.01.17 14:37 Сейчас в теме
(5) 1С достаточно тяжел и для работы с веб приложениями и в принципе не предназначен для этих целей. Существенно проще и главное быстрее делать это на PHP и прочих подобных инструментах. Тем более, что для такой задачи вам как воздух будут необходимы регулярные выражения.
И еще тягаться с их защитой действительно не имеет смысла. Я тоже как-то на PHP делал пробный парсер для Авто.ру. Вроде работал, потом через некоторое время перестал по причине усовершенствования их защиты. В интернете куча ресурсов подобной тематики с более простыми механизмами защиты с которых можно спарсить аналогичную информацию.
Но уж если невтерпеж, то попутный ветер в паруса:)