gifts2017

Парсинг и анализ топ рейтинга Самиздата (samlib.ru) v2.02 (СКД, XPath, Управляемые и обычные формы)

Опубликовал Олег Молочников (milkers) в раздел Обмен - Интеграция с WEB

Хочется почитать хорошую книгу? На сайте Самиздата samlib.ru публикуются сотни интереснейших книг... и тысячи, читать которые далеко не так интересно.

Хочется почитать хорошую книгу? На сайте Самиздата zhurnal.lib.ru публикуются сотни интереснейших книг... и тысячи, читать которые далеко не так интересно.

Можно найти интересную книгу по рейтингу, но дело это непростое. Я ориентируюсь на размер книги (люблю крупные формы), жанры (предпочитаю фантастику и приключения), рейтинг (книги с низким рейтингом, как правило, не блещут) и количество голосов (маленькое количество проголосовавших говорит о низкой релевантности рейтинга). Вручную просматривать этот рейтинг занимает слишком много времени.  Для личного пользования я сделал обработку, которая загружает и фильтрует рейтинг согласно моим вкусам. Может быть, эта обработка пригодится и Вам.

v2.02  Переписано под СКД. Парсинг теперь делается средствами XPath через временный файл.  Скорость загрузки страниц увеличилась в разы.  Система хранит данные предыдущей загрузки рейтинга и позволяет отлавливать тренды с помощью фильтров СКД. Например, можно отловить быстро набирающие популярность, отсортировав по изменению количества проголосовавших. Пока убран индикатор загрузки. Парсинг осуществляется на сервере и индикация процесса без изменения конфигурации и без замедления парсинга оказалась твердым орешком.

Для работы нужна 8.3+. Работает в любой конфигурации.

Сделано, в основном, что б поиграться с еще  неопробованными мной технологиями.

v1.15 Добавлен индикатор прогресса загрузки страниц рейтинга, добавлен список жанров исключений. (Например, если вы захотите отсеять любовные романы)

За основу взята http://infostart.ru/public/15955/.

Заранее благодарен за все комментарии и замечания.

Скачать файлы

Наименование Файл Версия Размер
Парсинг и анализ топ рейтинга Самиздата (samlib.ru) v2.02 (СКД, XPath, Управляемые и обычные формы) 1С 8.3+ 5
.erf 82,93Kb
20.10.16
5
.erf 2.02 82,93Kb Скачать
Загрузка рейтинга публикаций на самиздате 1.15 (8.1 ,без СКД, без XPach) 81
.epf 24,79Kb
20.10.16
81
.epf 24,79Kb Скачать

См. также

Подписаться Добавить вознаграждение

Комментарии

1. Сергей Кучеров (СергейКа) 16.12.10 17:32
Неплохо было бы прикрутить обработку прерывания.
А то промахнулся с количеством страниц - и можно ждать до "морковкиного заговенья" :)
А так же добавить в описание, что на управляемой форме не работает.
2. Олег Молочников (milkers) 16.12.10 20:54
3. Яков Коган (Yashazz) 21.12.10 17:46
Времени копаться нету, а любопытно, потому вопрос: делали разбором DOM-модели?
4. Олег Молочников (milkers) 21.12.10 21:20
(3)Нет. Поиск начала таблицы и конца таблицы. И обычный и парсинг.
5. Михаил Ражиков (tango) 08.01.11 17:33
6. Олег Молочников (milkers) 08.01.11 19:18
7. Юрий Н (graphbuh) 21.08.14 15:14
Интересно, а можно добавить функцию скачивания (допустим, в какую то директорию) и поиска по ключевым словам (допустим, используя яндекс). Учитывая конструкцию сайта это непросто, но всегда хочется невозможного )) уж такие мы , программисты
8. Олег Молочников (milkers) 21.08.14 15:58
(7) graphbuh, можно сделать и гораздо лучше. Но если честно, даже не смотря на то что я на больничном жалко времени и сил, на то чтоб переделывать работающую вещь, особенно с не очень востребованным здесь функционалом. По хорошему, чтоб сделать утилиту современной надо сделать две вещи: избавиться от программного парсинга и передавать таблицу в компоновку данных, где пользователь сможет сам настраивать фильтры. Меня вполне устраивает текущий вариант.
9. Олег Молочников (milkers) 20.10.16 17:22
(0) Выложил Парсинг и анализ топ рейтинга Самиздата v2.02 Переписано под СКД. Парсинг теперь делается средствами XPath через временный файл. Скорость загрузки страниц увеличилась в разы. Система хранит данные предыдущей загрузки рейтинга и позволяет отлавливать тренды с помощью фильтров СКД. Например, можно отловить быстро набирающие популярность, отсортировав по изменению количества проголосовавших. Пока убран индикатор загрузки. Парсинг осуществляется на сервере и индикация процесса без изменения конфигурации и без замедления парсинга оказалась твердым орешком.

Для работы нужна 8.3+. Работает в любой конфигурации.
10. Максим Сараев (desarz) 09.11.16 17:44
Преобразование значения к типу Число не может быть выполнено. Не работает однако :(
11. Олег Молочников (milkers) 09.11.16 21:02
(10) desarz, Какая версия платформы, какая из обработок (их 2). Ну и в какой конфигурации запускали, в каком клиенте.
Для написания сообщения необходимо авторизоваться
Прикрепить файл
Дополнительные параметры ответа