Разбор HTML страниц на примере сайта Лучший пользователь информационной системы 1С:ИТС

28.08.15

Интеграция - WEB-интеграция

В этом году фирма 1С и ее партнеры проводят IV Всероссийский конкурс «Лучший пользователь информационной системы 1С:ИТС». 20 августа закончился отборочный тур и появилась информация об участниках регионального тура на сайте thebest.its.1c.ru. Информация об участниках представлена по центрам проведения регионального тура (около 90 центров). Баллы за отборочный тур формировались из баллов за пройденный тест, баллов за акцию, проведенную в Вконтакте, и баллов, которые разыгрывали партнеры 1С, но на сайте отображались данные баллы общим числом. В этой статье я поделюсь тем, как я собирал информацию обо всех участниках регионального тура и детализировал полученные баллы.

Скачать файлы

Наименование Файл Версия Размер
Конфигурация 1С: Лучший пользователь 1С ИТС
.cf 19,18Kb
17
.cf 0.01 19,18Kb 17 Скачать

 

Анализ раздела "Участники регионального тура" сайта thebest.its.1c.ru

Для того, чтобы брать информацию со страницы, нам надо изучить ее. Посмотрев исходный код страницы, можно выделить следующие фрагменты:

<select name="partner" id="partner" class="form-control">
<option value="e3506426-dd64-11e4-9573-e41f13bdf6c4" selected="selected">г. Абакан, ООО "Хакасия.ру"</option>
<option value="e3a39c36-dd64-11e4-9573-e41f13bdf6c4">г. Апатиты, ООО "КОЛА ДИГЕСТА"</option>
...
<option value="f391e760-dd64-11e4-9573-e41f13bdf6c4">г. Ярославль, ООО "Ярософт"</option>
</select>

В списке выбора партнера можем увидеть, что каждый элемент списка имеет атрибут value. Данное значение используется для получение информации об участниках выбраного партнера. Например, для получения информации об участниках в центре проведения г. Апатиты, ООО "Кола Дигеста" можно по ссылке http://thebest.its.1c.ru/public/reg_tour?partner=e3a39c36-dd64-11e4-9573-e41f13bdf6c4 либо http://thebest.its.1c.ru/public/reg_tour/e3a39c36-dd64-11e4-9573-e41f13bdf6c4. Если мы получим все значения атрибута value, то мы сможем получить доступ ко всем страницам партнеров с участниками.

Теперь необходимо разобраться, как получать информацию о самих участниках. Опять же глянем исходный код страницы:

<tbody>
<tr>
<td class="regional_tour__fio">...</td>
<td class="regional_tour__nomination_td"><span class="nomination k" title="Кадровый учет и трудовое право"></span></td>
<td title="Тест: 84, акция Вконтакте: 15, акция от партнера: 15" class="text-center">114</td>
<td>2015-03-ххххх</td>
</tr>
...
</tbody>

В таблице каждая строка представлена 4 ячейками:

  1. Ячейка с классом regional_tour_fio. В данной ячейке размещается фамилия, имя и отчество участника
  2. Ячейка с классом regional_tour__nomination_td. В данной ячейке размещается элемент span, класс которого зависит от номинации, в которой участвовал пользователь. Таких номинаций три:
    • Бухгалтерский учет и налогообложение (класс nomination b)
    • Кадровый учет и трудовое право (класс nomination k)
    • Платформа 1С:Предприятие 8 – разработка и администрирование (класс nomination it)
  3. Ячейка с классом text-center. В данной ячейке размещается количество баллов, набранных за отборочный тур. Также здесь можно увидеть атрибут title, в котором хранится калькуляция баллов. Например "Тест: 84, акция Вконтакте: 15, акция от партнера: 15". Здесь хотелось бы отметить, что обязательно указывается только "Тест", остальные значения могут не указываться, если участник не принимал участия в акциях партнера или проводимых Вконтакте.
  4. Ячейка без опозновательных знаков :) В ней находится номер сертификата Профессионал 1С:ИТС. Ее будем определять как ячейку без атрибута class.

Создание справочников

Создадим пустую конфигурацию и добавим справочники Участники и Партнеры. На рисунке ниже показаны реквизиты справочников

Реквизиты справочников

В справочнике Участники реквизиты Фамилия, Имя, Отчество, Сертификат имеют тип Строка, БаллыЗаТест, БаллыВК, БаллыПартнер, ОбщиеБаллы имеют тип число и реквизит Партнер имеет тип СправочникСсылка.Партнеры. В справочнике Партнеры все реквизиты имеют тип строка.

Теперь создадим общую форму, с помощью которой будем обновлять информацию в справочниках. В данной форме создадим две команды: ОбновитьИнформацию и ЗакрытьФорму.

Разбор адреса

Начнем писать код в модуле этой формы. Для удобства работы напишем сперва функцию СтруктураАдреса, которая будет разбирать наш адрес по частям и возвращать структуру. Согласно RFC1738, адрес страницы строится следующим образом:

<scheme>://<user>:<password>@<host>:<port>/<url-path>,

где

  • scheme - протокол подключения http, https, ftp и т. д; обязательный;
  • user -  имя пользователя; необязательный;
  • password - пароль пользователя; необязательный;
  • host - имя сервера; обязательный;
  • port - порт соединения; необязательный;
  • url-path - путь к странице; необязательный. 
&НаКлиенте
Функция СтруктураАдреса(Знач Адрес) Экспорт
	
	Адрес = СокрЛП(Адрес);
	
	// схема
	Схема = "";
	Позиция = Найти(Адрес, "://");
	Если Позиция > 0 Тогда
		Схема = Лев(Адрес, Позиция - 1);
		Адрес = Сред(Адрес, Позиция + 3);
	КонецЕсли;
		
	// строка соединения и путь на сервере
	СтрокаСоединения = Адрес;
	ПутьНаСервере = "";
	Позиция = Найти(СтрокаСоединения, "/");
	Если Позиция > 0 Тогда
		ПутьНаСервере = Сред(СтрокаСоединения, Позиция + 1);
		СтрокаСоединения = Лев(СтрокаСоединения, Позиция - 1);
	КонецЕсли;
	
	// информация пользователя и имя сервера
	МассивРазбора = СтрРазделить(СтрокаСоединения,"@");
	ИмяПользователя = ?(МассивРазбора.Количество() = 1,Неопределено,МассивРазбора [0]);
	ИмяСервера = ?(ИмяПользователя = Неопределено, СтрокаСоединения, МассивРазбора [1]);
	
	// пользователь и пароль
	Если ИмяПользователя <> Неопределено Тогда
		 МассивРазбора = СтрРазделить(ИмяПользователя,":");
		 ИмяПользователя = МассивРазбора [0];
		 ПарольПользователя = ?(МассивРазбора.Количество() = 1,Неопределено,МассивРазбора [1]);
	КонецЕсли; 
	
	// имя сервера и пароль
	МассивРазбора = СтрРазделить(ИмяСервера,":");
	ИмяСервера = МассивРазбора [0];
	Порт = ?(МассивРазбора.Количество() = 1,Неопределено, Число(МассивРазбора [1]));
		
	Результат = Новый Структура;
	Результат.Вставить("Схема", Схема);
	Результат.Вставить("Логин", ИмяПользователя);
	Результат.Вставить("Пароль", ПарольПользователя);
	Результат.Вставить("ИмяСервера", ИмяСервера);
	Результат.Вставить("Порт", Порт);
	Результат.Вставить("ПутьНаСервере", ПутьНаСервере);
	Возврат Результат;
КонецФункции

Получение DOM-объектов с веб-страницы

Для работы с элементами (тегами) нам надо получить исходный текст страницы и преобразовать его в DOM-объекты. Для этого напишем функцию ПолучитьСтраницуВОбъектDOM(Адрес). Алгоритм функции следующий: мы создаем переменную типа HTTPСоединение, в конструкторе которого указываем имя сервера и порт. Используя данное соединение, мы создаем HTTPзапрос к необходимой нам страницы и пытаемся прочесть результат. Если получить результат не удалось, то выводим сообщение об ошибке, иначе получаем исходный код в кодировке UTF8.

&НаКлиенте
Функция ПолучитьСтраницуВОбъектDOM(Знач Адрес)
	Адрес = СтруктураАдреса(Адрес);	
	Соединение = Новый HTTPСоединение(Адрес.ИмяСервера, Адрес.Порт);
	ВебЗапрос = Новый HTTPЗапрос(Адрес.ПутьНаСервере);
	Попытка
		Результат = Соединение.Получить(ВебЗапрос);
	Исключение
		Сообщить("Ошибка соединения");
		ВызватьИсключение;
	КонецПопытки; 
	Ответ = Результат.ПолучитьТелоКакСтроку(КодировкаТекста.UTF8);
	Чтение = Новый ЧтениеHTML;
	Чтение.УстановитьСтроку(Ответ);
	ОбъектыDOM = Новый ПостроительDOM;
	Возврат ОбъектыDOM.Прочитать(Чтение);
КонецФункции

Получение и обработка данных из DOM-объектов

Чтобы получить необходимую информацию, нам необходимо загрузить страницу, где она расположена. Но у нас таких страниц несколько, и для этого нам необходимо обработать элементы списка партнеров. Чтобы получить список партнеров и адреса страниц, нам надо просмотреть все элементы option и получить значение атрибута value, из которого получим адреса страниц и сам текст этого элемента. Поиск элемента в объектах DOM будем осуществлять с помощью метода построителя DOM - ПолучитьЭлементыПоИмени(). В результате работы этого метода мы получим переменную с типом СписокЭлементовDOM(), в котором будут содержаться все элементы option и его содержимое. Для получения атрибута используем метод ПолучитьАтрибут(), а для получения содержимого элемента используем метод ТекстовоеСодержимое() Получить. Эти данные мы сохраним в структуре Партнер("Город", "НомерНаСайте", "Партнер"), которую в свою очередь добавим в массив. Вот тут у меня вопрос к читателям: как лучше сделать - передавать по одной структуре на сервер и там сохранять в справочнике или собрать все структуры в массив и передать массив на сервер? Я попробовал оба варианта, и по мне лучше второй. Далее мы подгружаем все страницы с информацией о участниках поочередно. Для получения информации об участниках необходимо найти таблицу без шапки (элемент tbody) и в нем получить все строки (элемент tr). После этого просматриваем все ячейки строки (элемент td) на соответствие атрибута class одному из условий. Все условия мы с вами рассмотрели ранее. Когда получаем элементы ячеек, нам необходимо выполнить некоторую обработку:

  1. В ячейке "Номинация" необходимо найти элемент span и на основании атрибута class данного элемента получить номинацию;
  2. Разобрать атрибут title в ячейке с количеством баллов, чтобы получить отдельно баллы за тест, за акцию ВК и баллы от партнеров.

Все полученные данные сохраняем в структуру Участник("ФИО", "Номинация", "БаллыТест", "БаллыВК", "БаллыПарт", "ОбщиеБаллы", "Сертификат", "Партнер"). Как и в случае с партнерами, данную структуру добавляем в массив. Полученные массивы отправляем на сервер для сохранения. В итоге функция получилась следующая:

&НаКлиенте
Процедура ОбновляемИнформацию(Знач Адрес)
	Страница = ПолучитьСтраницуВОбъектDOM(Адрес);	
	ОбъектыСписка = Страница.ПолучитьЭлементыПоИмени("option");
	Партнер = Новый Структура;                   
	МассивПартнеров = Новый Массив;
	МассивУчастников = Новый Массив;
	Для каждого Объект Из ОбъектыСписка Цикл
		ПартнерГород = СтрРазделить(Объект.ТекстовоеСодержимое,",");
		Номер  = Объект.ПолучитьАтрибут("value");
		Партнер.Вставить("Город",СокрЛП( ПартнерГород[0]));
		Партнер.Вставить("НомерНаСайте",Номер);
		Партнер.Вставить("Партнер",СокрЛП(ПартнерГород[1]));
		МассивПартнеров.Добавить(Новый Структура ("Город,НомерНаСайте,Партнер",Партнер ["Город"], Партнер ["НомерНаСайте"], Партнер ["Партнер"])    );
		СтраницаПартнер = ПолучитьСтраницуВОбъектDOM("http://thebest.its.1c.ru/public/reg_tour/"+Партнер ["НомерНаСайте"]);
		Участник = Новый Структура;
		Таблица = СтраницаПартнер.ПолучитьЭлементыПоИмени("tbody");
		СтрокиТаблицы = Таблица[0].ПолучитьЭлементыПоИмени("tr");
		Для каждого Строка Из СтрокиТаблицы Цикл
			ПоляТаблицы = Строка.ПолучитьЭлементыПоИмени("td");
			Для каждого Поле Из ПоляТаблицы Цикл
				Если Поле.ПолучитьАтрибут("class") = "regional_tour__fio"  Тогда
					Участник.Вставить("ФИО",Поле.ТекстовоеСодержимое);	
				КонецЕсли; 
				Если Поле.ПолучитьАтрибут("class") = "regional_tour__nomination_td"  Тогда
					Номинации = Поле.ПолучитьЭлементыПоИмени("span");
					Номинация = "";
					Номинация = ?(Номинации[0].ПолучитьАтрибут("class")="nomination it","Информационные технологии",Номинация);
					Номинация = ?(Номинации[0].ПолучитьАтрибут("class")="nomination k","Кадры",Номинация);
					Номинация = ?(Номинации[0].ПолучитьАтрибут("class")="nomination b","Бухгалтерия",Номинация);
					Участник.Вставить("Номинация",Номинация);	
				КонецЕсли;
				Если Поле.ПолучитьАтрибут("class") = "text-center"  Тогда
					МассивБаллов = СтрРазделить(Поле.ПолучитьАтрибут("title"),",");
					БаллыТест = 0; БаллыВК = 0; БаллыПарт = 0;
					Для каждого Элемент Из массивБаллов Цикл
						Баллы = СтрРазделить(Элемент,":");
						Если СокрЛП(Баллы [0]) = "Тест"  Тогда
							БаллыТест=СокрЛП(Баллы [1]);
						ИначеЕсли СокрЛП(Баллы [0]) = "акция Вконтакте"  Тогда
							БаллыВК=СокрЛП(Баллы [1]);
						ИначеЕсли СокрЛП(Баллы [0]) = "акция от партнера"  Тогда 
							БаллыПарт=СокрЛП(Баллы [1]);
						КонецЕсли; 
						Участник.Вставить("БаллыТест", БаллыТест);
						Участник.Вставить("БаллыВК", БаллыВК); 
						Участник.Вставить("БаллыПарт", БаллыПарт);
					КонецЦикла; 
					Участник.Вставить("ОбщиеБаллы", Поле.ТекстовоеСодержимое);
				КонецЕсли;
				Если Поле.ПолучитьАтрибут("class") = Неопределено  Тогда
					Участник.Вставить("Сертификат",Поле.ТекстовоеСодержимое);	
				КонецЕсли; 
			КонецЦикла; 
			МассивУчастников.Добавить(Новый Структура ("ФИО,Номинация,БаллыТест,БаллыВК,БаллыПарт,ОбщиеБаллы,Сертификат,Партнер", Участник ["ФИО"],Участник ["Номинация"],Участник ["БаллыТест"],Участник ["БаллыВК"],Участник ["БаллыПарт"],Участник ["ОбщиеБаллы"],Участник ["Сертификат"],Партнер ["НомерНаСайте"]  ));
		КонецЦикла; 
	КонецЦикла; 
	ОбновитьПартнеров(МассивПартнеров);
	ОбновитьУчастников(МассивУчастников);
КонецПроцедуры

Сохранение данных в справочниках

Для сохранения данных в справочниках мы создадим функции ОбновитьУчастников(МассивУчастников) и ОбновитьПартнеров(МассивПартнеров):

&НаСервере
Процедура ОбновитьПартнеров(Знач МассивПартнеров)
	Для каждого Партнер Из МассивПартнеров Цикл
		ТекущийПартнер = Справочники.Партнеры.НайтиПоРеквизиту("НомерНаСайте", Партнер ["НомерНаСайте"]);
		Если ТекущийПартнер = Справочники.Партнеры.ПустаяСсылка() Тогда
			ТекущийПартнер = Справочники.Партнеры.СоздатьЭлемент();
		Иначе
			ТекущийПартнер = ТекущийПартнер.ПолучитьОбъект();
		КонецЕсли; 
		ТекущийПартнер.НомерНаСайте = Партнер ["НомерНаСайте"];
		ТекущийПартнер.Город = Партнер ["Город"];
		ТекущийПартнер.Партнер = Партнер ["Партнер"];
		ТекущийПартнер.Наименование = Партнер ["Город"] + ", " + Партнер ["Партнер"];
		ТекущийПартнер.Записать();
	КонецЦикла; 
КонецПроцедуры

&НаСервере
Процедура ОбновитьУчастников(Знач МассивУчастников)
	Для каждого Участник Из МассивУчастников Цикл
		ТекущийУчастник = Справочники.Участники.НайтиПоНаименованию(Участник["ФИО"]);
		Если ТекущийУчастник = Справочники.Участники.ПустаяСсылка() Тогда
			ТекущийУчастник = Справочники.Участники.СоздатьЭлемент();
		Иначе
			ТекущийУчастник = ТекущийУчастник.ПолучитьОбъект();
		КонецЕсли;
		ФИО = СтрРазделить(Участник ["ФИО"], " ");
		ТекущийУчастник.Фамилия = ФИО [0];
		ТекущийУчастник.Имя = ФИО [1];
		ТекущийУчастник.Отчество = ФИО [2];
		ТекущийПартнер = Справочники.Партнеры.НайтиПоРеквизиту("НомерНаСайте", Участник ["Партнер"] );
		ТекущийУчастник.Партнер = ТекущийПартнер;
		ТекущийУчастник.БаллыЗаТест = Участник ["БаллыТест"];
		ТекущийУчастник.БаллыВК = Участник ["БаллыВК"];
		ТекущийУчастник.БаллыПартнер = Участник ["БаллыПарт"];
		ТекущийУчастник.ОбщиеБаллы = Участник ["ОбщиеБаллы"];
		ТекущийУчастник.Наименование = Участник ["ФИО" ];
		ТекущийУчастник.Сертификат = Участник ["Сертификат" ];
		ТекущийУчастник.Записать();
	КонецЦикла; 
КонецПроцедуры

Осталось только сделать приятные мелочи по оформлению, но каждый делает на свой вкус и цвет. Я вывел форму списка справочника Участники единственной на рабочую облать начальной страницы, и вместо вывода номера сертификата я применил условное форматирование (строка выделяется цветом, если человек получил сертификат). В итоге получилось следующее:

Итог

web html dom parse парсинг разбор html

См. также

Интеграция Альфа Авто 5 / Альфа Авто 6 и AUTOCRM / Инфотек

Сайты и интернет-магазины WEB-интеграция Платформа 1С v8.3 Конфигурации 1cv8 1С:Управление торговлей 11 Автомобили, автосервисы Россия Управленческий учет Платные (руб)

Интеграционный модуль обмена между конфигурацией Альфа Авто 5 и Альфа Авто 6 и порталом AUTOCRM. Данный модуль универсален. Позволяет работать с несколькими обменами AUTOCRM разных брендов в одной информационной базе в ручном и автоматическом режиме. Без существенных изменений типовой конфигурации. Проверено с брендами: Интеграция 1С и GEELY Интеграция 1С и HAVAL Интеграция 1С и KIA Интеграция 1С и FORD Интеграция 1С и LADA ГАРАНТИЯ 100% ВНЕДРЕНИЯ!

36000 руб.

03.08.2020    15744    10    17    

11

Интеграция 1С — Битрикс24. Обмен задачами

Сайты и интернет-магазины Интеграция WEB-интеграция Платформа 1С v8.3 Конфигурации 1cv8 Управленческий учет Платные (руб)

Интеграция 1С и Битрикс24. Разработка имеет двухстороннюю синхронизацию 1С и Битрикс24 задачами. Решение позволяет создавать пользователя в 1С из Битрикс24 и наоборот. Данная разработка технически подходит под все основные конфигурации линейки продуктов 1С:Предприятие 8.3 (8.3.18.1289). При приобретении предоставляется 1 месяц бесплатных обновлений разработки. Доступна демо-версия продукта с подключением Вашего Битрикс24

5040 руб.

04.05.2021    17547    6    15    

13

Интеграция с сервисом vetmanager

WEB-интеграция Платформа 1С v8.3 Бухгалтерский учет 1С:Бухгалтерия 3.0 Бытовые услуги, сервис Платные (руб)

Внешняя обработка разрабатывалась для загрузки документов из Ветменеджер в 1С: Бухгалтерия 3.0

12000 руб.

02.02.2021    16358    42    49    

23

[Расширение] БОР-Навигатор.Культура

Зарплата Бюджетный учет WEB-интеграция Обмен с ГосИС Платформа 1С v8.3 Сложные периодические расчеты 1С:Зарплата и кадры государственного учреждения 3 Государственные, бюджетные структуры Россия Бюджетный учет Платные (руб)

Расширение конфигурации, включающее в себя объекты, необходимые для подготовки и сдачи отчета "Штатная численность" системы "БОР-Навигатор.Культура" в программе "1С:Зарплата и кадры государственного учреждения", редакция 3.1.

8400 руб.

01.02.2019    25736    9    0    

7

Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС

Обмен с ГосИС WEB-интеграция Платформа 1С v8.3 Управляемые формы 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия государственного учреждения 1С:Документооборот 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Платные (руб)

Обработка является альтернативой механизму, разработанному фирмой 1С и заполняющему реквизиты контрагента по ИНН или наименованию. Не требуется действующей подписки ИТС. Вызывается как внешняя дополнительная обработка, т.е. используется, непосредственно, из карточки контрагента. Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС (egrul.nalog.ru) для БП 2.0, БП 3.0, БГУ 1.0, БГУ 2.0, УТ 10.3, УТ 11.x, КА 1.1, КА 2.x, УПП 1.x, ERP 2.x, УНФ 1.5, УНФ 1.6, УНФ 3.0, ДО 2.1

2400 руб.

28.04.2016    88578    160    215    

318
Вознаграждение за ответ
Показать полностью
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
В этой теме еще нет сообщений.
Оставьте свое сообщение