Настройка сайта на парсинг

 

Настройки парсинга сайтов описываются в справочниках "Главные страницы" и "Группы страниц".

Разберем на примере. Необходимо натсроить сайт http://flex-sport74.ru.

Создаём новый элемент справочника "Главные страницы". Заполняем реквизиты элементы следующим образом:

Адрес сайта - http://flex-sport74.ru

Использование - Истина

Откуда начинать - http://flex-sport74.ru/products/Pitanie/

Выбираем контрагента-конкурента и тип цен

Задаём список адресов, куда не нужно заходить парсеру:

 

Запрещенный адрес Имя
http://flex-sport74.ru/shop/*/item*
http://flex-sport74.ru/shop/*cart*
http://flex-sport74.ru/shop/*sort*
http://flex-sport74.ru/shop/*action*
http://flex-sport74.ru/articles/*
http://flex-sport74.ru/foto/*
http://flex-sport74.ru/news/*
http://flex-sport74.ru/zakaz*
http://flex-sport74.ru/shop/*tag*
http://flex-sport74.ru/search*
http://flex-sport74.ru/sale*
http://flex-sport74.ru/shop/group_599/group_669/* журналы
http://flex-sport74.ru/shop/group_599/* аксесуары
http://flex-sport74.ru/shop/group_611/* оборудование
http://flex-sport74.ru/products/Axessuary/* аксессуары
http://flex-sport74.ru/products/Oborudovanie/* оборудование
http://flex-sport74.ru/news/* новости
http://flex-sport74.ru/contacts* контакты
http://flex-sport74.ru/cart* корзина
http://flex-sport74.ru/help* помощь
http://flex-sport74.ru/about*
http://flex-sport74.ru/orders*
http://flex-sport74.ru/products/Pitanie/*html конкретная позиция
http://flex-sport74.ru/products/Pitanie/*all* весь ассортимент не грузим
http://flex-sport74.ru/*sortDesc*
http://flex-sport74.ru/products/Pitanie/*-* конкретная позиция
http://flex-sport74.ru/*sortBy*
http://flex-sport74.ru/*?*
http://flex-sport74.ru/*?all=1
http://flex-sport74.ru/*foto*
http://flex-sport74.ru/products/Pitanie/*tag*
http://flex-sport74.ru/*netcat*
http://flex-sport74.ru/*manufacturer*
http://flex-sport74.ru/*files*
http://flex-sport74.ru/*my*
http://flex-sport74.ru/*.html конкретная позиция
http://flex-sport74.ru/*_* конкретная позиция
http://flex-sport74.ru/*-* конкретная позиция
http://flex-sport74.ru/*-* конкретная позиция
http://flex-sport74.ru/*LiteraturaDVD* конкретная позиция
http://flex-sport74.ru/*Axessuary* конкретная позиция

 

Когда парсер будет считывать сайт, все ссылки, которые попадают в эти шаблоны не будут считываться. Шаблоны запрещённых адресов создавались таким образом, чтобы считывался только каталог/список номенклатуры на сайте (страницы на которых указан список товаров). Чтобы парсер не заходил на каждую страничку товара. Допустим товаров на сайте около 2000, а страничек со списками этих товаров всего около 20. Тем самым нам необходимо считать только 20 страниц - мы получаем максимальную скорость считывания

Далее необходимо завести в подчинённом справочнике "Группы страниц" хотя бы один элемент с описанием параметров считывания

 

 

В поле шаблон указываем адрес, по шаблону которого будут считываться данные. В табличной части указываем параметры считывание. Параметр "Наименование" обязательный. В колонке "путь" указываем путь Xpath (подробнее можно прочитать здесь http://www.odineskin.ru/index.php/item/40-primery-xpath-zaprosov-k-html) Если необходимо указываем "Regex" (подробнее здесь http://www.odineskin.ru/index.php/item/56-ssylki-na-mettrialy-po-regulyarnym-vyrazheniyam-regex) Колонка "искать в наименовании" будет указывать потом при автоматической синхронизации номенклатуры что данное свойство следует искать в наименовании номенклатуры. Указываем ключевые поля, в пределах которых считанная номенклатура будет считаться уникальной. Записываем элемент.

 

Парсинг

 

Считываение сайта осуществляется по кнопке "Старт". Первоначальное считывание загрузит считанную номенклатуру в базу, которую необходимо будет однократно синхронизировать. Впоследсвии при считывании сайта будет автоматически создаваться документ "Установка цен" по синхронизированной номенклатуре.

 

Синхронизация номенклатуры

 

Мы рекомендуем вначале провести максимальное количество раз автоматическую синхронизацию. затем уже синхронизировать вручную то что не поддалось автоматически

 

Вкладка "Автоматическая синхронизация"

 

Рекомендуем такую стратегию :

-провести синхронизацию с настройками по умолчанию

-провести "обратную" синхронизацию с настройками по умолчанию

-провести синхронизацию с более нечетким поиском (установить процент вхождения, например 60 %)

 

Поле "Номер слова" обозначает поиск количества в строке (только для количественных параметров)

 

После работы автоматической синхронизации, сопоставленные строки будует выделены цветом. необходимо их проверить и записать сопоставленны строки в базу

Вкладка "Ручная синхронизация"

 

Это вкладка - рабочее место опреатора по ручной синхронизации и также использовать автоматические отборы.

 

Вкладка "Настройки и служебные обработки"

 

Здесь можно запустить создание номенклатуры конкурентов с уже считанных страниц,которые хранятся в базе.

 

Вкладка "Запрещённые наименования"

 

Здесь задаются запрещенные строки, которые не будут парситься, если они будут встречаться в каком либо параметре