Самый простой парсинг и обработка веб-страниц в 1С

07.08.20

Рассмотрим самый простой парсинг веб-страниц средствами платформы 1С и еще некоторые полезные приемы работы с веб-страницами.

Простой, примитивный

Сегодня пятница (на момент создания публикации), а значит можно коснуться какой-нибудь простой темы. Например - парсинг сайтов. Публикация ориентирована больше на новичков и кто только решил посмотреть на работу поля HTML-документа.

Тема не новая и каких только материалов нет на просторах сети. Кто-то парсит через DOM, кто-то регулярками и еще длинный список способов. Мы же пойдем самым простым способом - через поле HTML-документа. Тем более с появлением поддержки WebKit возможностей для его использования прибавилось.

Рассмотрим пару простых примеров и немного коснемся ограничений.

Большие ограничения

Данный материал не подойдет, если Вы решаете следующие задачи:

Получение и обработка данных на сервере регламентным заданием или любым другим.
Обработка очень большого массива данных.
Пытаетесь парсингом заменить работу через API из-за его отсутствия или недоступности.
Вам нужен надежный способ получения данных.

В случаях же, если нужен простой и быстрый в реализации способ извлечения данных с веб-страниц, и при этом работа с инструментом будет вестись интерактивно, то использование поля HTML-документа то что нужно.

Парсинг веб-ресурсов почти всегда "зло" как по отношению к владельцу ресурса, так и в части сопровождения таких решений. Ведь стоит разметке поменяться и алгоритмы извлечения данных нужно снова менять.

Однако, иногда выхода нет. Да и использование предлагаемого подхода можно считать этичным в каком-то плане, потому что создаем всего лишь помощника работы с браузером и автоматизируем действия пользователя на веб-странице. Хотя это вопрос "холиварный".

В чем плюсы

Все очень просто:

Использование поля HTML-документа выполняется полностью на клиенте и не требует серверных мощностей.
Выполняется полноценная работа с веб-страницей. Например, если выполнять получение данных веб-страницы с помощью HTTP-запросов, то не всегда можно получить привычную, готовую страницу, т.к. ее содержимое может зависеть от выполняемых JavaScript-скриптов и дополнительных действий.
Из второго плюса также можно выделить более простую работу с веб-приложением. Например, для прохождения формы аутентификации не обязательно изучать какие запросы выполняются на сервер и как выполнять обработку ответа. Вместо этого в самом браузере мы вставим значения логина и пароля в форму и просто программно нажмем кнопку "Вход".

Но эти плюсы в каком-то плане создают и ограничения использования таких подходов работы с веб-содержимым.

Далее рассмотрим пару простых примеров. Решать использовать ли такие способы для решения задач только Вам.

Добрались до примера

Два небольших примера. От простейшего к сложному (ну, почти).

Просто получаем данные

А начнем мы с простого примера по парсингу площадки Яндекс.Маркет. Да, конечно, можно было сделать пример намного проще, но тут мы сразу рассмотрим основные способы работы с HTML-документов. Давным-давно, много лет назад, что-то подобное я выкладывал в разработке "Парсер товаров Яндекс.Маркет", но обработка сейчас уже не актуальна и больше служит примером работы с HTML-документов. Код там не лучшего качества :)

Когда мы закончим реализацию примера, то получим следующее.

По команде "Начать парсинг" мы будем "грабить" страницы на имена товаров и ссылки на них. Да, можно получать и другие поля, но в нашем случае этого достаточно. На анимации выше видно, как увеличивается количество строк с данными в таблице формы.

Первое что нам нужно сделать - это добавить на форму поле HTML-документа и основные реквизиты для хранения данных.

Настраиваем форму

Теперь настало время кода! При создании формы установим URL по умолчанию.

#Область ОбработчикиСобытийФормы

&НаСервере
Процедура ПриСозданииНаСервере(Отказ, СтандартнаяОбработка)
	
	ВебСтраница = "https://market.yandex.ru";
	
КонецПроцедуры

#КонецОбласти

Это позволит при открытии сразу же открывать нужный ресурс. Далее реализуем обработчики команд "Начать парсинг" и "Остановить парсинг".

#Область ОбработчикиКоманд

&НаКлиенте
Процедура НачатьПарсинг(Команда = Неопределено)
	
	ТекущаяОперация = "ПарсингТоваров";
	
	ИнформацияОТоварах.Очистить();
	НомерТекущейСтраницы = ИзвлечьНомерСтраницы();
	
	ПолученыДанные = ВыполнитьПарсингДанных();
	Если ПолученыДанные Тогда
		ВебСтраница = СформироватьАдресСледующейСтраницы();		
	КонецЕсли;
	
КонецПроцедуры

&НаКлиенте
Процедура ОстановитьПарсинг(Команда = Неопределено)
	
	ТекущаяОперация = "НеАктивно"
	
КонецПроцедуры

#КонецОбласти

С командой "ОстановитьПарсинг" все понятно: мы просто устанавливаем имя текущей операции на "НеАктивно", чтобы парсинг не продолжался автоматически. Команда "НачатьПарсинг" устанавливаем имя текущей операции на "ПарсингТоваров" и начинает заново заполнять таблицу с данными (наименование и ссылка на товар). При этом из текущего адреса получаем номер страницы с товарами, который сохраняется в клиентской переменной модуля формы.

#Область ОписаниеПеременных

&НаКлиенте
Перем НомерТекущейСтраницы;

#КонецОбласти

Номер страницы нужен для автоматического переключения на следующие вовремя парсинга. Сам номер страницы хранится в адресной строке в виде параметра "page". Если не указан, то это первая страница.

Если данные парсинга были успешно получены, то переходим на следующую страницу с товарами и так до бесконечности. Ну, пока есть данные. Реализация бесконечного перехода по страницам достигается через событие "ДокументСформирован" поля HTML-документа. Вот такой обработчик событий был для этого сделан:

#Область ОбработчикиСобытийЭлементовФормы

&НаКлиенте
Процедура ВебСтраницаДокументСформирован(Элемент)
	
	Если ТекущаяОперация = "ПарсингТоваров" Тогда
		
		ПолученыДанные = ВыполнитьПарсингДанных();
		
		Если ПолученыДанные Тогда
			НомерТекущейСтраницы = ИзвлечьНомерСтраницы();
			ВебСтраница = СформироватьАдресСледующейСтраницы();
		Иначе
			ОстановитьПарсинг();	
		КонецЕсли;
		
	КонецЕсли;
	
КонецПроцедуры

#КонецОбласти

Если текущая операция "ПарсингТоваров", а не любая другая (вот почему команда "ОстановитьПарсинг" действительно его останавливает - просто при формирововании страницы никаких действий для продолжения не будет выполнено), то мы пытаемся "спарсить" данные со сформированной страницы. Если данные успешно получены, то актуализируем значение переменной текущей страницы и формируем адрес следующей.

Далее рассмотрим служебные процедуры работы с адресом и парсингом.

Извлечение номера страницы из адреса

С помощью этой функции получаем номер текущей страницы из адреса. Адрес берем из внешнего объекта поля HTML-документа, т.к. в реквизите "ВебСтраница" моет быть не актуальная информация.

В адресе параметр номер страницы называется "page". Ищем наличие этого параметра, а после парсим значение до тех пор, пока получается числа. Если параметра "page" нет, то считаем что это первая страница.

&НаКлиенте
Функция ИзвлечьНомерСтраницы()
	
	ИндексПараметра = Найти(Элементы.ВебСтраница.Документ.baseURI, "page");
	
	Если ИндексПараметра > 0 Тогда
		НачалоСтрокиПараметра = "page=";
		ИндексЗначенияПараметра = ИндексПараметра + СтрДлина(НачалоСтрокиПараметра);
		
		СтрокаНомерСтраницы = "";
		ЕстьДанныеНомераСтраницы = Истина;
		Пока ЕстьДанныеНомераСтраницы Цикл
			СимволНомера = Сред(Элементы.ВебСтраница.Документ.baseURI,	ИндексЗначенияПараметра, 1);
			Если ЗначениеЗаполнено(СимволНомера)
				И СтроковыеФункцииКлиентСервер.ТолькоЦифрыВСтроке(СимволНомера) Тогда
				СтрокаНомерСтраницы = СтрокаНомерСтраницы + СимволНомера;
				ИндексЗначенияПараметра = ИндексЗначенияПараметра + 1;
			Иначе
				ЕстьДанныеНомераСтраницы = Ложь;
			КонецЕсли;
		КонецЦикла;
		
		Возврат Число(СтрокаНомерСтраницы);
	Иначе
		Возврат 1;	
	КонецЕсли;
	
КонецФункции

Вроде бы все просто. Для простоты используем функции из БСП по работе со строками.

Формируем адрес следующей страницы

Тут все просто. Если в текущем адресе есть параметр "page", то заменяем его новым значением. Если нет, то устанавливаем текущую страницу (обычно 1 в этом случае).

&НаКлиенте
Функция СформироватьАдресСледующейСтраницы()
	
	ТекущийАдрес = Элементы.ВебСтраница.Документ.baseURI;
	НовыйАдрес = Неопределено;
	
	Если Найти(ТекущийАдрес, "page") > 0 Тогда
		НомерСледующейСтраницы = НомерТекущейСтраницы + 1;
		НовыйАдрес = СтрЗаменить(ТекущийАдрес,
			"page=" + XMLСтрока(НомерТекущейСтраницы),
			"page=" + XMLСтрока(НомерСледующейСтраницы));
	Иначе
		НовыйАдрес = ТекущийАдрес + "&page=" + XMLСтрока(НомерТекущейСтраницы);	
	КонецЕсли;
	
	Возврат НовыйАдрес;
	
КонецФункции

Все опять просто!

А теперь перейдем к более сложной части - извлечению данных со страницы.

Парсинг данных

Парсинг данных можно выполнять разными способами. Можно явно указывать путь через элементы DOM, можно пытаться парсить страницу с помощью объекта ДокументDOM, а для особых извращенцев можно использовать регулярные выражения. Нормально ли писать такой код для получения доступа к объекту веб-страницы:

Наименование = СокрЛП(node.childNodes[2].childNodes[0].childNodes[0].title);

Даже выглядит не очень хорошо. А документ DOM использовать не всегда возможно, т.к. не все HTML-страницы можно преобразовать к валидному XML-документу. Есть и другой способ - использование CSS-селекторов. Например с помощью такого селектора можно получить доступ к элементу со списком товаров Яндекс.Маркета (только на определенных страницах).

queryResult = document.querySelector("body > div:nth-child(3) > div:nth-child(7) > div.layout.layout_type_search.i-bem > div > div:nth-child(1) > div > div > div");

Да, это тоже выглядит не так элегантно как работа с DOM и XPath, но зато срабатывает практически всегда, если, конечно, разметка не поменялась. Ниже на листинге кода Вы можете видеть, что с помощью внешнего объекта HTML-документа можно вызывать функции JavaScript и использовать CSS-селекторы для получения значений с веб-страницы. Да, тема не новая и использование JS в 1С уже не раз освещалось. В конце публикации как-раз будут интересные публикации на эту тему. Подробную информацию о CSS-селекторах Вы можете получить здесь.

&НаКлиенте
Функция ВыполнитьПарсингДанных()
	
	ДанныеБылиПолучены = Ложь;
	document = Элементы.ВебСтраница.Документ;
	
	queryResult = document.querySelector("body > div:nth-child(3) > div:nth-child(7) > div.layout.layout_type_search.i-bem > div > div:nth-child(1) > div > div > div");
	
	Если queryResult = Неопределено Тогда
		ОбщегоНазначенияКлиентСервер.СообщитьПользователю("Нет данных для парсинга.");
	Иначе
		НомерУзла = 0;
		Для Каждого node Из queryResult.childNodes Цикл
			
			НомерУзла = НомерУзла + 1;
			
			УзлыНаименование = node.querySelector("article:nth-child(" + XMLСтрока(НомерУзла) + ") > div:nth-child(4) > div:nth-child(1) > h3 > a > span");
			Если УзлыНаименование = Неопределено Тогда
				Продолжить;
			КонецЕсли;
			Если УзлыНаименование.childNodes.length > 0 Тогда
				Наименование = УзлыНаименование.firstChild.nodeValue;
			КонецЕсли;
			
			УзлыURL = node.querySelector("article:nth-child(" + XMLСтрока(НомерУзла) + ") > div:nth-child(4) > div:nth-child(1) > h3 > a");
			Если УзлыURL = Неопределено Тогда
				Продолжить;
			КонецЕсли;
			Если НЕ УзлыURL = Неопределено Тогда
				URL = УзлыURL.href;
			КонецЕсли;
			
			Если НЕ ЗначениеЗаполнено(URL)
				ИЛИ НЕ ЗначениеЗаполнено(Наименование) Тогда
				Продолжить;
			КонецЕсли;
				
			НовСтр = ИнформацияОТоварах.Добавить();
			НовСтр.Наименование = Наименование;
			НовСтр.Ссылка = URL;
			ДанныеБылиПолучены = Истина;
			
			ВсегоПолучено = ИнформацияОТоварах.Количество();
			
		КонецЦикла;
	КонецЕсли;
	
	Возврат ДанныеБылиПолучены;
	
КонецФункции

Все что делает эта функция - получает список узлов с продуктами, а потом для каждого из них извлекает наименование и ссылку на товар. Полученные данные записываются в таблицу формы.

Может быть вопрос - как же получить CSS-селектор? Можно, конечно, формировать его вручную, но проще хотя бы шаблон получить. В инструментах веб-разработчика, которые встроены почти во все браузеры, можно получить его таким образом.

Дальше можно полученный селектор отредактировать, убрав навигацию от классов, например, на ID или просто порядковый номер элемента. В общем, нужно действовать по ситуации.

Как Вы видите, все процедуры и функции выполняются на клиенте. Как упоминалось выше, работать с этим полем возможно только на клиенте, что и является основным ограничением его применения.

Конечно, данное решение не идеальное, т.к. не учитывает множества факторов и вариантов страниц Я.Маркета, но мы этого и не пытались сделать. Это лишь простейший пример для понимания как это можно реализовать. Готовой обработки не выкладываю специально, потому что если разобраться самостоятельно, то это будет намного полезней.

Проходим авторизацию

Пример парсинга мы рассмотрели, но бывают ситуации сложнее. Например, перед парсингом может понадобиться пройти аутентификацию на сайте. Например, на сайте releases.1C.ru для просмотра списка релизов, даже те, которые недоступны, необходимо пройти аутентификацию. Конечно, можно использовать HTTP-запросы, проанализировать как именно нужно эти запросы сделать и все это поведение эмулировать. А можно пройти аутентификации с помощью поля HTML-документа, не погружаясь на низкий уровень запросов.

Например, для прохождения аутентификации на том же сайте с релизами достаточно использовать такой код:

&НаКлиенте
Процедура ВходНаСайтРелизов(Команда)
	
	Логин = "<Ваш логин>";
	Пароль = "<Ваш пароль>";
	
	// Внешний объект документа из поля HTML-документа
	document = Элементы.ВебСтраница.Документ;
	
	// Устанавливаем логин и пароль в поля ввода
	document.querySelector("#username").value = Логин;
	document.querySelector("#password").value = Пароль;
	
	// Нажимакм на кнопку "Войти"
	document.querySelector("#loginButton").click();
	
КонецПроцедуры

В режиме 1С:Предприятие выглядит это вот так.

Все просто как никогда и никаких HTTP-Запросов. Все что нужно - это получить CSS-селекторы, получить доступ к соответствующим элементам на странице, а дальше заполнить поля и нажать на кнопку "Войти". Далее можно парсить, но все на Вашей ответственности! :)

Парсинг это плохо

Повторю еще раз - парсинг веб-страниц это плохо. Для целей получения данных должен быть API, который позволит строить надежные и производительные решения. А парсинг... он до первого изменения разметки.

Все примеры здесь даны лишь в демонстрационных целях. Любое использование информации только на Вашу ответственность.

Ниже добавил ссылки на интересные и более глубокие публикации по этой теме. Если Вас интересует использование JavaScript в связке с 1С, то там Вы найдете отличные материалы для изучения этой темы.

Удачи в делах и отличного настроения!

Другие ссылки

Авторские разработки

Транслятор запросов 1С в SQL - инструмент для трансляции запросов платформы 1С в SQL, а также их диагностики.
Просмотр и анализ структуры базы данных (отчет на СКД) - отчет для просмотра и анализа структуры базы данных с поддержкой файловых баз (ограниченный режим), а также баз на SQL Server и PostgreSQL.
Просмотр и анализ журнала регистрации (отчет на СКД) - отчет на базе системы компоновки данных (СКД) для просмотра записей журнала регистрации.
История работы пользователей (отчет на СКД) - отчет для просмотра истории работы пользователей (СКД, просмотр для любого пользователя).
Экспорт журнала регистрации. Набор инструментов (приложения + исходный код) - набор инструментов для экспорта данных журнала регистрации во внешние хранилища для Windows и Linux. Готовые приложения и исходный код.
Технические проверки данных регистров бухгалтерии (отчет на СКД) - отчет для технических проверок данных бухгалтерских регистров.
Путеводитель по истории релизов - отчет по истории выпуска релизов продуктов фирмы "1С" и анализа информации по обновлениям.

Другие разработки (8 штук, бесплатные и за $m)

Вступайте в нашу телеграмм-группу Инфостарт

парсинг web html клиент поле документа

+153 –

Вы можете заказать платную адаптацию этой статьи под ваши задачи на «Бирже заказов».

0% комиссии — оплата напрямую исполнителю;
Исполнители любого масштаба — от отдельных специалистов до команд под проект;
Прямой обмен контактами между заказчиком и исполнителем;
Безопасная сделка — при необходимости;
Рейтинги, кейсы и прозрачная система откликов.

См. также

Интеграция Альфа Авто 5 и 6 и AUTOCRM + LOGICSTARS

Сайты и интернет-магазины WEB-интеграция Системный администратор Программист Пользователь 1С:Предприятие 8 1C:Бухгалтерия 1С:Управление торговлей 11 Автомобили, автосервисы Россия Управленческий учет Платные (руб)

Интеграционный модуль обмена между конфигурацией Альфа Авто 5 и Альфа Авто 6 и порталом AUTOCRM / LOGICSTARS. Данный модуль универсален. Позволяет работать с несколькими обменами AUTOCRM / LOGICSTAR разных брендов в одной информационной базе в ручном и автоматическом режиме.

42700 руб.

03.08.2020 24215 37 24

Интеграция Vetmanager с 1С: автоматизация учета для ветеринарных клиник. Синхронизация документов, справочников и оплат через API

WEB-интеграция Программист 1С:Предприятие 8 1С:Бухгалтерия 3.0 Бытовые услуги, сервис Платные (руб)

Расширение для автоматизации передачи данных между сервисом Vetmanager с 1С: Бухгалтерия 3.0. Решение позволяет загружать документы и справочники из Ветменеджер в 1С:Бухгалтерию, сокращая время на ручной ввод данных и минимизируя ошибки.

24000 руб.

02.02.2021 22908 68 52

Экспортер — автоматизация выгрузки данных из 1С в Spot2D

WEB-интеграция Программист Бизнес-аналитик 1С:Предприятие 8 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 1С:Розница 3.0 Оптовая торговля, дистрибуция, логистика ИТ-компания Платные (руб)

Модуль "Экспортер" — это расширение для 1С, предназначенное для автоматизации процессов выгрузки данных. Оно позволяет эффективно извлекать, преобразовывать и передавать данные из систем 1С в интеграционную платформу Spot2D. Подсистема упрощает настройку, снижает количество ручных операций и обеспечивает удобный контроль данных.

17568 руб.

20.12.2024 6167 28 4

Интеграция 1С с API Boxberry, СДЭК, Энергия, Почта России, DPD, ПЭК, Grastin, Деловые Линии, КСЕ, Dalli, ЯндексДоставка

WEB-интеграция Рабочее место Оптовая торговля Розничная торговля Логистика, склад и ТМЦ Пользователь 1С:Предприятие 8 1С:Бухгалтерия 2.0 1С:Бухгалтерия 3.0 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 1.6 1С:Управление нашей фирмой 3.0 1С:Управление торговлей 10 1С:Управление торговлей 11 1С:Розница 2 1С:Розница 3.0 Оптовая торговля, дистрибуция, логистика Россия Управленческий учет Платные (руб)

Программный продукт "Управление доставками в 1С" позволяет обмениваться с личным кабинетом Boxberry, СДЭК, Энергия, Почта России, DPD, ПЭК, Grastin, Деловые Линии, КСЕ, Dalli, ЯндексДоставка. Упрощает создание заявок и резервирование заказов прямо в интерфейсе 1С

24400 руб.

10.03.2016 72205 315 100

Amocrm: интеграция с 1С

WEB-интеграция Анализ продаж Системный администратор Программист Пользователь 1С:Предприятие 8 1С:Розница 2 1С:Управление нашей фирмой 1.6 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 1С:Розница 3.0 Управленческий учет Платные (руб)

Модуль "Подсистема интеграции AmoCRM с 1С" позволяет обеспечить единое информационное пространство, в котором пользователи могут эффективно управлять клиентской базой, следить за статусами сделок и поддерживать актуальность данных как в AmoCRM, так и в 1С.

60000 руб.

07.05.2019 42970 76 45

Интеграция 1С с OpenCart 2.x, 3x модуль обмена данными

WEB-интеграция Оптовая торговля Розничная торговля Программист 1С:Предприятие 8 1С:Розница 2 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 Розничная и сетевая торговля (FMCG) Оптовая торговля, дистрибуция, логистика Управленческий учет Платные (руб)

Модуль интеграции 1С с OpenCart 2.x, 3x позволяет обмениваться данными между OpenCart (самая популярная бесплатная cms для интернет-магазинов) и 1С:Предприятие 8.

6914 руб.

17.11.2015 132466 462 143

251

Выгрузка товаров в VK маркет из 1С

WEB-интеграция Загрузка и выгрузка в Excel Программист Пользователь 1С:Предприятие 8 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Розничная и сетевая торговля (FMCG) Россия Платные (руб)

Расширение освободит вас от необходимости вручную обновлять информацию о товарах в группах ВКонтакте. Достаточно задать правила один раз, и система автоматически формирует файлы yml для дальнейшей загрузки в группы в ВК. Вы сможете легко выбирать, какие товары публиковать, создавая гибкие критерии отбора. Например, можно добавить важные для покупателей параметры: цвет, размер или другие характеристики.

12200 руб.

29.08.2025 2660 7 6

Заполнение контрагента по ИНН или наименованию реквизитов по данным сайта ФНС в 1С: 8.3

Обмен с ГосИС WEB-интеграция Бухгалтер Пользователь 1С:Предприятие 8 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия государственного учреждения 1С:Документооборот 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Платные (руб)

Обработка является альтернативой механизму, разработанному фирмой 1С и заполняющему реквизиты контрагента по ИНН или наименованию. Не требуется действующей подписки ИТС. Вызывается как внешняя дополнительная обработка, т.е. используется, непосредственно, из карточки контрагента. Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС (egrul.nalog.ru) для БП 2.0, БП 3.0, БГУ 1.0, БГУ 2.0, УТ 10.3, УТ 11.x, КА 1.1, КА 2.x, УПП 1.x, ERP 2.x, УНФ 1.5, УНФ 1.6, УНФ 3.0, ДО 2.1

5283 руб.

28.04.2016 100992 120 219

368

Комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. BairamovTM 07.08.20 09:13 Сейчас в теме

Юрий отличная статья, как всегда написано в простой и понятной форме, однозначный плюс.
Было бы интересно еще узнать какие есть ограничения в работе у HTML-документа по сравнению с обычной работой в браузере, надеюсь увидеть в ваших будущих статьях.

2. пользователь 07.08.20 09:35

(1) спасибо!

Подумаю над этим. Но информацию подобную можно найти в публикациях, список которых в конце статьи.

12. Yashazz 4916 07.08.20 20:01 Сейчас в теме

(1) Ну, "работа HTML-документа" это слишком обще сказано. Есть ограничения по части деклараций и вообще допустимости некоторых блоков в head, есть ограничения на пространства имён, есть иногда проблемы с хаотично раскиданными кусками скриптов по коду (как это любит делать битрикс) и кстати с DHTML-ными фишками. Джумловое что-то, например, плоховато обрабатывается. Есть несколько ограничений на значения, возвращаемые функциями скриптов или получаемые в свойствах методов (1С их приводит к строке, иногда уродует). Есть ограничения с кодировкой, но это решается через 2 функции перекодирования (а не как мучились 10 лет назад). Есть в скриптах некоторые трудности (и в объектной модели, и в обещаниях, и в случае js-функций как переменных). Глобальные переменные js не работают и вообще глобальный контекст теряется. Ну и традиционно стык между 1С и хтмл для всего, кроме потоков, требует внимания. Всё, пожалуй.

А вот с DOM-моделью, и с трансляцией обычной разметки в подходящие объекты 1С (хмл или хтмл) проблем не замечено.

3. Ibrogim 1660 07.08.20 12:09 Сейчас в теме

получается практически Selenium и vebdriver

5. пользователь 07.08.20 12:26

(3) что-то вроде этого.

Я нашел еще способ использовать веб-клиент, хоть и не 1Сный, на стороне сервера.
Там не все просто, но можно теоретически и об этом написать или примеры дать.
Не знаю на сколько это нужно вообще коллегам.

7. Fox-trot 166 07.08.20 15:28 Сейчас в теме

слишком узковато для практического применения, так что вряд ли оно кому-то надо

4. bulpi 218 07.08.20 12:12 Сейчас в теме

Очень интересно . Вот бы еще дать примеры по таким методам :
"Можно явно указывать путь через элементы DOM, можно пытаться парсить страницу с помощью объекта ДокументDOM"
Я , увы, не знаю, как это сделать. И думаю, я не один такой.

6. пользователь 07.08.20 12:26

(4) А примеры все в конце публикации, набор ссылок "Другие ссылки".
По DOM вот коллега хорошо описал https://infostart.ru/public/314045/

8. Yashazz 4916 07.08.20 17:18 Сейчас в теме

(4) Советую глянуть https://infostart.ru/public/328533/ как одно из решений, и https://infostart.ru/public/280340/ как способ быстро и удобно искать информацию в DOM.

9. Yashazz 4916 07.08.20 17:23 Сейчас в теме

А если честно, в этот раз не айс. Потому что получилось ни то, ни сё - ни обзор вариантов, как заявлено, ни пошаговое обучение подробно одному из вариантов, ни готовая разработка.

Описывать же надо совершенно разные вещи: статические или динамические сайты, получение контента, и отдельно просто разбор структурированной информации. А тут всё, особенно для новичка, кучно. Между скачиванием исходника страницы и парсингом есть разница.

Опять же, есть куча инструментов для этого, хорошо было б хоть краткий обзор.

Советую прочитать https://infostart.ru/1c/articles/1196479/ - как раз по теме получения "сырья" для парсинга, коротко и понятно обо всех вариантах.

10. пользователь 07.08.20 17:29

(9) спасибо, яркий человек :)

11. Yashazz 4916 07.08.20 18:33 Сейчас в теме

(10) На самом деле тебе спасибо за статьи - иногда наводит на мысль чего-то самому раскопать, ранее некопанное.

13. Cyberhawk 137 14.08.20 08:36 Сейчас в теме

с HTML-документов

14. smirnovserg.s@gmail.com 14.08.20 08:58 Сейчас в теме

Самое большое зло из-за отсутствия АПИ - это получение релизов с сайта releases.1c.ru
Парсинг/авторизация по токенам и прочая головная боль

15. пользователь 14.08.20 09:20

(14) true

16. DrAku1a 1795 15.08.20 16:00 Сейчас в теме

Прочитать со страницы сайта одно какое-то значение:

ТекстHTML = ПолучитьИсходныйТекстСтраницы();
НужнымМнеТекст = ТекстМежду(ТекстHTML, ТекстСлеваОтНужного, ТекстСправаОтНужного);

Функция "ТекстМежду" - использует СтрНайти() для поиска нужного текста, текст слева и справа - уникальный текст со страницы, между которым заключен нужный мне фрагмент.
Получается быстро и экономно по ресурсам, но есть минус: не очень надёжно, т.к. при изменении исходного текста страницы - перестаёт работать (отредактировали шаблон генерируемой страницы и ТекстСлева или ТекстСправа перестал находиться).

Примерно так:

ТекстHTML = ПолучитьИсходныйТекстСтраницы("https://yandex.ru/search/?text=current+time");
ТекстСлева = "yandex.ru/time"" data-counter=""[&quot;b&quot;]"">";
ТекстСправа ="</a>";
ТекВремя = ТекстМежду(ТекстHTML, ТекстСлева, ТекстСправа);

17. CyclesOfID 157 20.08.20 16:18 Сейчас в теме

"Парсинг сайтов - это плохо!!"

Другие ссылки:
Парсинг сайтов из 1С на примере ломбарды.рф с помощью XPATH для ДокументDOM

Парсинг сайта без использования встроенного браузера для начинающих

Пример парсинга сайта средствами 1С

Парсинг (сканирование) сайта из 1С на примере сайта по криптовалюте....

18. пользователь 20.08.20 16:20

(17) true

19. piton66 2 04.03.21 13:46 Сейчас в теме

А как парсить например такое? На странице кнопка показать телефон. По кнопке открывается окно с телефоном.

20. starik-2005 3268 17.03.21 14:19 Сейчас в теме

(19)

По кнопке открывается окно с телефоном.

Ну так кнопка или дергает запрос, или просто hide=false для элемента делает, в который телефон мутится. Так что или где-то на странице этот телефон есть, или нужно дернуть запрос (авиты и всякие такие сайты). Но спамерам помогать - себя не уважать.

21. piton66 2 18.03.21 09:23 Сейчас в теме

Сам уже разобрался. Запрос отдельный.
Зачем обзываешься урюк.. я не спамер.

22. Boudybuilder 35 26.04.21 23:01 Сейчас в теме

Хорошая статья

23. binex 280 01.10.21 00:03 Сейчас в теме

У меня ругается на querySelector - Метод объекта не обнаружен (querySelector)

Как подружить?

	document = Элементы.ХТМЛДокумент.Документ;
	queryResult = document.querySelector("#__APP > div > main");

24. voleg2 09.12.21 14:12 Сейчас в теме

Что то ваш парсинг криво работает. Когда запускаешь, через 8 часов сьедает всю оперативку.

25. voleg2 09.12.21 14:14 Сейчас в теме

"Парсинг сайтов - это плохо!!"

Другие ссылки:
Парсинг сайтов из 1С на примере ломбарды.рф с помощью XPATH для ДокументDOM

Парсинг сайта без использования встроенного браузера для начинающих

А как ты собрался парсить если интерактивная Java?

26. пользователь 09.12.21 14:31

(25) Вот поэтому я и перестал писать статьи на ИС и отвечать на комментарии.

>> Что то ваш парсинг криво работает
Ни конкретного вопроса, ни желания самому разбираться что там и как. Почему?

>> А как ты собрался парсить если интерактивная Java?
Мы уже на ты?) И причем тут Java в браузере?

>> "Парсинг сайтов - это плохо!!"
>>Другие ссылки:
>>Парсинг сайтов из 1С на примере ломбарды.рф с помощью XPATH для ДокументDOM
>>Парсинг сайта без использования встроенного браузера для начинающих
И троллинг.

Вот они все комментарии :)

Неужели после таких вопросов ждут люди ответов?

Наверное стоило и дальше игнорировать комментарии. Так что после этого продолжу :D

27. Serginio 945 17.12.21 11:19 Сейчас в теме

Я бы еще оставил свое поделие
https://infostart.ru/1c/articles/466196/

https://infostart.ru/1c/articles/466052/

Учитывая развитие anglesharp https://anglesharp.github.io/ можно использовать JavaScript для формирования HTML
или
Я бы еще добавил Silenium прежде всего как построитель DOM в заскриптованных таблицах http://www.seleniumhq.org/docs/05_selenium_rc.jsp#c

Для того что бы добраться до сформированного DOM можно использовать вместо PageSource
вычисляемый скрипт

http://stackoverflow.com/questions/26584215/selenium-page-source-does-not-return-modified-dom-tree

var pageSource = (string)driver.ExecuteScript("return document.body.outerHTML");

28. user1828764 15.08.22 16:51 Сейчас в теме

Добрый день!
Интересует возможность написания парсера для загрузки данных в 1С.
Вы занимаетесь данным написанием?

29. Pluto 04.11.22 11:08 Сейчас в теме

И всё бы ничего, но данным методом даже не открывается требуемая страница.
При попытке зайти на https://agent.taxcom.ru просто тихо и молча закрывается вся платформа 1С. Без всяких ошибок, сообщений, тупо берёт и закрывается. Вот такое поведение мне честно говоря вообще не понятно.

30. user1888681 25.12.22 20:31 Сейчас в теме

Не работает

Для отправки сообщения требуется регистрация/авторизация

Автор:

Инфобот (Infostart)

Рейтинг: 29246

Для получения уведомлений о новых публикациях автора подключите телеграм бот: Инфостарт бот

Вы можете заказать платную консультацию или разработку у автора. Будет создан приватный заказ на «Бирже заказов» для автора.

Публикация:

№ 1269023

Создание 07.08.20 09:03

Обновление 07.08.20 09:03

Статистика:

Просмотры 47748

Загрузки 0

Рейтинг 153

Комментарии 30

Характеристики:

Код открыт Да

Рубрики WEB-интеграция Универсальные функции

Кому Программист

Тип файла Нет файла

Платформа 1С:Предприятие 8

Конфигурация 1C:Бухгалтерия

Операционная система Не имеет значения

Страна Не имеет значения

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Бесплатно (free)

Самый простой парсинг и обработка веб-страниц в 1С

Простой, примитивный

Большие ограничения

В чем плюсы

Добрались до примера

Просто получаем данные

Проходим авторизацию

Парсинг это плохо

Другие ссылки

Авторские разработки

См. также

Журнал

База знаний

Лаборатория

Анализ & Управление

Сопровождение 1С

Корпоративные решения

Обучение

Маркетплейс

Проектный офис

Мероприятия

Видеозаписи

Биржа заказов

Форум

Мерч

О компании