Инструкция
Хотя процесс работы с качалкой аналогичен работе с программами подобного назначения, небольшая инструкция для пользователей не помешает.
На закладке "HTML" имеется браузер, строка адреса которого используется в качестве стартового URL для начала заполнения списка закачек.
Заполнение запускается командами "Разбор HTML-страницы ..." в текущий или новый список. Разбор выполняется одним из парсеров выбранных на этой же закладке. Пока работает парсер - нажатая кнопка будет в состоянии "выделена". Прервать работу можно комбинацией Ctrl+Break.
Собственно встроенный браузер нужен только чтобы убедиться, что открыта правильная начальная страница. Кнопка с "домиком", намекает, что для сайтов в её списке имеются специально обученные парсеры. В зависимости от имени домена после загрузки страницы в браузере парсер переключается, что не запрещает выбрать подходящий по смыслу из списка в ручную перед запуском разбора.
Отработав, парсер открывает закладку "Список", где мы получаем лист закачки, в котором как минимум заполнена колонка URL.
Для заполнения колонок "состояние", "тип", "размер" автоматически запускается команда "Получить заголовки HTTP".
Так как это асинхронный процесс, можно не дожидаясь его окончания редактировать дерево или запустить закачки.
Прервать или запустить процесс снова можно в любой момент нажатием кнопки "Получить заголовки HTTP".
Для редактирования дерева стандартные кнопки дополнены командами массового изменения (сначала с Shift выделяем строки).
Кликом в колонке "Очередь скачивания" (со стрелкой вниз в заголовке) строка подтверждается или исключается из планируемых закачек (включая подчиненные узлы). В этой же колонке появляется стрелка вниз в процесс скачивания и затем "черный квадратик" в случае успешного выполнения.
Изначально другие колонки дерева защищены от изменения "вдавливание" кнопки с карандашом переключает дерево в режим редактирования колонок и обратно. В режиме редактирования дерева появляется кнопка "открыть файл" (по выделенной строке), чтобы ради этого не переключать лишний раз режим дерева. Для обладателей программы Proxy Switcher в панели добавляется кнопка её запуска (чтобы далеко не лезть, как понадобится прокси).
Двойной клик в списке - выборочная закачка по строке.
Двойной клик в списке в момент закачки - добавляет строку в "приоритетные закачки", которые будут выполнены перед основной очередью.
Двойной клик по строке со скачанным файлом - его запуск ассоциированной программой.
Клик по колонке URL - открытие страницы во встроенном браузере (открывается закладка HTML).
Закончим начальную подготовку заглянув на закладку "Настройки" и выбрав каталог для записи.
Также стоит обратить внимание, что настройки сохраняются стандартным для форм механизмом (сохранить/восстановить значения), а для дерева закачек предусмотрено сохранение и экспорт в файл.
Итак, все готово к основному процессу. Запустить/прервать закачки можно в любой момент нажатием кнопки "Запустить модуль скачивания...". Прервать все выполняющиеся процессы в обработке - Ctrl+Break.
Легенда по основным иконкам:
Особенности реализации
Раздел для интересующихся технологическими деталями.
Минимализм
В обработке не предусмотрено никаких дополнительных средств авторизации. Есть внешние программы для решения этой задачи на качественно лучшем уровне.
Если уж очень нужно - не забываем про веб-формы во встроенном браузере и строку адреса.
Асинхронный режим
Асинхронно выполняется только получение пакетов данных объектом «WinHttp.WinHttpRequest», что в комбинации с обработками ожидания дает неплохую «псевдо» параллельность работы. Естественно «настоящий» менеджер закачек быстрее, поэтому есть экспорт списка. На практике пропускную способность серверов обычно лимитируют так, что существенной разницы в скорости с Качалкой может и не быть.
Проверка ссылок
Необходимый перед загрузкой процесс выявления «живых» ссылок, обычно еще дает информацию о типе и размере файлов. Используется для статистики в индикаторах.
Для слабых серверов не рекомендуется ставить в настройке больше 5 потоков. Большое количество может быть расценено, как DoS-атака.
Использование прокси
Задачи нахождения прокси и прочие тонкости с этим связанные предоставляются специализированным программ, вроде Proxy Switcher. Флажок «Использовать активное прокси-соединение» в настройках Качалки позволяет использовать активный коннект, если он есть. На форме отображается состояние соединения, адрес, порт сервера и состояние использования.
Настройки
Таймаут получения заголовка - технически достаточно 100 мсек., но на серверной стороне оценивается количество запросов в минуту и не стоит сильно накручивать этот показатель, если один пакет притормозил. Лучше подождать несколько секунд, чем получить бан на долго. По умолчанию 5000.
Блок скачивания, Мб - размер передаваемого пакета за запрос. На скорость передачи влияет только косвенно - если связь часто обрывается, то небольшой размер выгоднее. Независимо от размера блока в момент передачи файл хранится в памяти объекта ADODB.Stream. Только когда файл полностью получен, он записывается на диск и память освобождается. С одной стороны, достаточно простым кодом это минимизирует возможность появления "криво" скачанного файла, но с другой, возникает пиковая нагрузка на диск и память, поэтому с такой схемой не разгуляешься с количеством потоков.
«Потоков скачивания файлов» пока действует только 1.
Часть настроек может быть не задействована, например в демо-модулях.
Модульная структура
Эта обработка задумана в виде оболочки с пополняемым набором возможностей. Поэтому для удобства разработки и улучшения структуры кода функциональные блоки разнесены по отдельным формам.
Фактически формы тут используются как не визуальные объекты. Назначение их хранится в комментарии свойств (Парсер, МодульСкачивания, Печать, Экспорт) и используется для динамического подключения в меню и настройки. Управление такими «модулями» осуществляется через процедуры «Запустить», «Остановить», а состояние надо смотреть по переменной булево «Выполняется».
Скопировав форму получаем новый уже подключенный модуль.
Если нужен другой алгоритм - можно сразу приступить к его реализации не вдаваясь в детали, как устроена интерфейсная часть (в параметрах по ссылкам доступны необходимые объекты и не важно, где они расположены и как называются).
Для примера приведу модуль парсера "простой", который собирает ссылки на странице. Изменим одну строку сравнения с "http://" на "mailto:" и получим сборщик электронных адресов. Принимая во внимание остальной арсенал модулей - мы только-что создали полнофункциональную программу для подготовки списков рассылки. Помоему неплохо, учитывая что для этого нужно было прочитать 30 строк кода и напечатать 7 символов.
//HTML - Поле HTML документа
//Дерево - ДеревоЗначений
Процедура Запустить(HTML, Дерево) Экспорт
Параметры.Парсер.Выполняется = Истина;
Параметры.Парсер.Индикатор.Значение=0;
Список = HTML.Документ.GetElementsByTagName("A");
Параметры.Парсер.Индикатор.МаксимальноеЗначение = Список.length;
Параметры.Парсер.Индикатор.Видимость = Истина;
для каждого Элемент из Список цикл
ОбработкаПрерыванияПользователя();
Параметры.Парсер.Индикатор.Значение = Параметры.Парсер.Индикатор.Значение + 1;
попытка
href = Элемент.href;
исключение
Продолжить;
конецпопытки;
если Дерево.Строки.Найти(href, "URL", Истина) <> Неопределено тогда // повтор
Продолжить;
иначеесли Лев(href, 7) <> "http://" тогда // неверный формат
Продолжить;
конецесли;
Стр = Дерево.Строки.Добавить();
Стр.Наименование = Элемент.innerText;
Стр.Категория = "Разное";
Стр.URL = Элемент.href;
Стр.Очередь = Истина;
конеццикла;
Остановить();
Параметры.ПолучитьЗаголовкиHTTP.Запустить(); // запуск следующего модуля
КонецПроцедуры
Процедура Остановить() Экспорт
Параметры.Парсер.Выполняется = Ложь;
Параметры.Парсер.Индикатор.Видимость = Ложь;
Параметры.Парсер.Кнопка.Пометка = Ложь;
КонецПроцедуры
Причина появления обработки
Тут попытаюсь объяснить, чем меня не устраивает аналогичный софт.
Хороших менеджеров закачки предостаточно, программ для скачки сайтов - тоже. Периодически таким софтом пользуюсь, но не попадалась программка, в которой можно добавить свой скрипт в пару строк для разбора страницы, чтобы вытащить описание. Максимум, что бывает – фильтры по свойствам файлов (тип, дата, размер). Под дополнительные сведения обычно одно поле отводится, что маловато.
Если 3 строки можно руками заполнить, то для 100 000 файлов это уже не вариант. Тем более если требуется синхронизировать по разным источникам или залить результат в базу.
Для устранения пробелов в привычном софте и появилась эта обработка.
К моменту выпуска релиза: Качалка стала полнофункциональным менеджером закачки; сохранена интеграция с тяжёлой артиллерией софтопрома; выполнена боевая «обкатка». В мирных целях Качалка может парсить MSDN - результаты используются в разработке «Все константы MS Office».
Картинки
Браузер
Редактор дерева закачки
Настройки
Печатная форма
Качалка в работе (gif)
Парсер для MSDN
Многопоточная проверка ссылок
Модуль скачивания в деле
Лог изменений
v.1 fix 1
fix Исправлена функция получения иконки сайта для строки поиска в браузере КартинкаДомена(). Если формат скачанного ресурса не поддерживается - используется встроенная картинка.
fix Реализована поддержка версий до 8.2.17, в которых нет функции ТекущаяУниверсальнаяДатаВМиллисекундах(). Произведена замена на универсальную ДатаВМиллисекундах(), которая в старых версиях дает меньшую точность. Может кому-то пригодится.
Функция ДатаВМиллисекундах() Экспорт
Перем Время;
Попытка
Выполнить("Время=ТекущаяУниверсальнаяДатаВМиллисекундах();");
Возврат Время;
Исключение
Возврат (ТекущаяДата()-Дата("00000000"))*1000;
КонецПопытки;
КонецФункции