Пример парсинга web-страницы, поиск ссылки на картинку из страницы по атрибуту

04.08.15

Интеграция - WEB-интеграция

На примере сайта brain.com.ua покажу, как можно получить ссылку на картинку из веб-страницы.

Файлы

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование Скачано Купить файл
СсылкаНаФотоПоАтрибуту.epf
.epf 7,00Kb
9 2 500 руб. Купить

Подписка PRO — скачивайте любые файлы со скидкой до 85% из Базы знаний

Оформите подписку на компанию для решения рабочих задач

Оформить подписку и скачать решение со скидкой

Вы можете заказать платную доработку или адаптацию этой разработки под вашу конфигурацию на «Бирже заказов».

  • 0% комиссии — оплата напрямую исполнителю;
  • Исполнители любого масштаба — от отдельных специалистов до команд под проект;
  • Прямой обмен контактами между заказчиком и исполнителем;
  • Безопасная сделка — при необходимости;
  • Рейтинги, кейсы и прозрачная система откликов.

Поступило задание на парсинг страницы сайта. Например, нам нужна ссылка на основное фото. Для начала, узнаем имя этого атрибута. Если вы используете браузер Мозилла (в других, по-другому), достаточно в открытой странице на элементе вызвать контекстное меню и выбрать пункт Inspect element:


После этого в появившимся окне спотрим, как называется текущий атрибут. В нашем случае, "large_picture_container":

Дальше пишем простенький код на примере нашего сайта:

Функция Парсинг(Ссылка)
	
	ЧтениеHTML = Новый ЧтениеHTML;
    ЧтениеHTML.ОткрытьФайл(Ссылка);
     
    ПостроительDOM = Новый ПостроительDOM;
    ДокументHTML = ПостроительDOM.Прочитать(ЧтениеHTML);
    
    ЭлементыDOM = ДокументHTML.ПолучитьЭлементыПоИмени("span");
	
	СсылкаВрем = "";
	Для Каждого ЭлементDOM Из ЭлементыDOM Цикл
		Если ЭлементDOM.ИмяКласса = "large_picture_container" Тогда
			Для каждого ДочУзл Из ЭлементDOM.ДочерниеУзлы Цикл
				Если ДочУзл.ИмяУзла = "img" Тогда
					СсылкаВрем = ДочУзл.Источник;
					Возврат (ЗначениеЗаполнено(СсылкаВрем), "http://brain.com.ua" + СсылкаВрем ,"");
				КонецЕсли;	
			КонецЦикла;
			СсылкаВрем = ЭлементDOM		
		КонецЕсли;
	КонецЦикла;
	
	Возврат "";
	
КонецФункции

Вступайте в нашу телеграмм-группу Инфостарт

Парсинг веб-страница картинка по атрибуту

См. также

Сайты и интернет-магазины WEB-интеграция Системный администратор Программист Пользователь 1С:Предприятие 8 1C:Бухгалтерия 1С:Управление торговлей 11 Автомобили, автосервисы Россия Управленческий учет Платные (руб)

Интеграционный модуль обмена между конфигурацией Альфа Авто 5 и Альфа Авто 6 и порталом AUTOCRM / LOGICSTARS. Данный модуль универсален. Позволяет работать с несколькими обменами AUTOCRM / LOGICSTAR разных брендов в одной информационной базе в ручном и автоматическом режиме.

42700 руб.

03.08.2020    24712    38    26    

29

WEB-интеграция Программист 1С:Предприятие 8 1С:Бухгалтерия 3.0 Бытовые услуги, сервис Платные (руб)

Расширение для автоматизации передачи данных между сервисом Vetmanager с 1С: Бухгалтерия 3.0. Решение позволяет загружать документы и справочники из Ветменеджер в 1С:Бухгалтерию, сокращая время на ручной ввод данных и минимизируя ошибки.

24000 руб.

02.02.2021    23419    73    52    

44

WEB-интеграция Программист Бизнес-аналитик 1С:Предприятие 8 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 1С:Розница 3.0 Оптовая торговля, дистрибуция, логистика ИТ-компания Платные (руб)

Модуль "Экспортер" — это расширение для 1С, предназначенное для автоматизации процессов выгрузки данных. Оно позволяет эффективно извлекать, преобразовывать и передавать данные из систем 1С в интеграционную платформу Spot2D. Подсистема упрощает настройку, снижает количество ручных операций и обеспечивает удобный контроль данных.

17568 руб.

20.12.2024    6680    28    4    

30

WEB-интеграция 1С 8.3 1C:Бухгалтерия Автомобили, автосервисы Беларусь Украина Россия Казахстан Управленческий учет Платные (руб)

Расширение для 1С:Управление Автотранспортом (ПРОФ) автоматизирует мониторинг транспорта (пробег, расход, координаты, стоянки) и формирование путевых листов. Включает отчеты, фоновую загрузку данных, работает без активации константы мониторинга. Формы — с открытым кодом, общие модули защищены. Доступна демо-версия. Снижает ручной ввод и повышает точность учета.

23034 руб.

25.05.2021    16168    44    8    

19
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Yashazz 4927 04.08.15 13:55 Сейчас в теме
Верно. Подобное действие является одним из множества кирпичиков, составляющих парсинг сайта. Только не очень понятно, зачем ради этого отдельную статью делать)
Ну и советую при не очень богатом разнообразии имён тегов использовать XPath, чтоб не промахнуться.
cool.vlad4; odineskin2; +2 Ответить
2. cool.vlad4 2 04.08.15 15:13 Сейчас в теме
(1) Yashazz, а я как в 1С делать xpath запросы к html , который с точки зрения xml может быть невалидным? (достроив до валидного, но есть ли готовый код?)
(0) в xpath это будет //img[@class='large_picture_container']/@src (можно еще не "=" а contain использовать , а если есть верояность , что тэг не всегда img , то вместо img : //*[@class='large_picture_container']/@src )
4. Yashazz 4927 06.08.15 13:16 Сейчас в теме
(2) cool.vlad4, знаешь, я внаглую нормализую узлы DOM, загоняю их копированием разными способами в xml и парсю, вроде прокатывает. Ни разу на невалидность не попадал, хотя, может, мало экспериментировал. Посмотри методы, работающие со всяким пересовыванием узлов туда-сюда.
cool.vlad4; +1 Ответить
3. MsDjuice 114 05.08.15 10:30 Сейчас в теме
(1) Yashazz, Отдельная статья для таких как я. Дали задания и не знаешь с чего начать. А начать хотя бы с этого.
alextalov; +1 Ответить
5. alex_4x 88 07.07.17 14:23 Сейчас в теме
Добрый день! Вижу вы занимаетесь скрещиванием ужей с ежами, а мне это тоже нужно.
Вопрос немного не про картинки. Задача такая - из 1С нужно получить все открытые в IE, Опере, Firefox'е, Хроме - странички. Для начала просто получить список страниц (их URL-ы). Не подскажите как это сделать? Спасибо!
Можно на примере хотя бы одного любого браузера, так как возможно для каждого браузера это будут разные механизмы.
Спасибо!
Для отправки сообщения требуется регистрация/авторизация