Обозрев просторы интернетов, стало понятно, что владельцы информации сделали все, чтобы максимально затруднить массовое получение такой информации. К счастью, добрый человек Sirruf, опубликовал обработку, позволяющую получать ОГРН с разных сайтов, в том числе, fedresurs.ru.
Так как задача была срочная и одноразовая, было решено не городить огородов, а написать алгоритм для Инструментов разработчика уважаемого Сергея Старых (tormozit), позаимствовав процедуру получения данных из обработки ВводКонтрагентовПоДаннымФНС_ОбычныеФормы.
Опубликую это здесь, может кому-то пригодится.
Итак:
В конце концов, я решил использовать инструмент Консоль запросов (ИР).
В справочник Контрагенты был добавлен реквизит ахОГРН, который и требовалось заполнить актуальными данными.
Почему реквизит справочника?
Конечно, в соответствии с 1CZen, правильнее было бы добавить в конфигурацию новую таблицу, например РС:ОГРНКонтрагентов, раз уж не предусмотрено в типовой конфигурации УПП реквизита ОГРН в справочнике Контрагенты. но мы решили, что ОГРН - это у контрагента раз и навсегда, поэтому все-таки добавили именно реквизит справочника.
Запросом отобрал необходимых контрагентов и заявил дополнительные реквизиты, которые будут заполняться на последующем шаге:
ВЫБРАТЬ
Контрагенты.Родитель КАК Родитель,
Контрагенты.Код КАК КонтрагентКод,
Контрагенты.Ссылка КАК КонтрагентСсылка,
Контрагенты.НаименованиеПолное КАК ПолноеНаименование,
Контрагенты.ИНН КАК СпрИНН,
Контрагенты.КПП КАК СпрКПП,
выразить("" как Строка(300)) КАК Наименование,
выразить("" как Строка(15)) КАК ИНН,
выразить("" как Строка(15)) КАК КПП,
выразить("" как Строка(30)) КАК ОГРН,
выразить("" как Строка(300)) КАК Адрес,
выразить("" как Строка(300)) КАК url
ИЗ
Справочник.Контрагенты КАК Контрагенты
ГДЕ Истина
И Контрагенты.Родитель = &РодительПапкаСбыт
И НЕ Контрагенты.ЭтоГруппа
И Контрагенты.ЮрФизЛицо = &ЮрФизЛицоЮрЛицо
Далее, заполнил текст модуля "Обработка строки результата" процедурой получения данных. Сервис fedresurs.ru был выбран из-за отсутствия необходимости ввода капчи на каждый запрос. Хотя, боюсь, что это скоро прикроют и капчу все-таки навесят. Сегодня, 14.04.2017, я этим алгоритмом загружал данные в копию информационной базы - капчи не было.
К тексту модуля небольшое пояснение:
Действие выполняется в два этапа: на первом этапе получаются данные от вебсервиса для контрагента (по ИНН) текущей строки набора данных и их запись в ячейки строки таблицы данных. На втором этапе получается объект справочника Контрагенты из ссылки в текущей строке набора данных и полученные данные записываются в объект. Так как в модуле Обработка результата Консоли запросов (ИР) результирующий набор данных (внезапно!) а переносить получение данных в процедуру Обработка результата мне было лениво, оба этапа реализованы в одном модуле Обработка строки результата, а этап выбирается значением переменной ПолучениеИзInternet. Когда она равна правде - происходить загрузка данных, если ее установить в неправду - данные из набора данных записываются в справочник.
Кроме кода ОГРН, вебсервис возвращает еще правильное наименование контрагента и его юридический адрес. Посчитав, что это важные для выверки данные, я решил сохранить их в неиспользуемом у нас реквизите справочника ДополнительноеОписание. Туда же дописывается ссылка, по которой можно открыть страницу с данными этого контрагента на fedresurs.ru.
// Заполнение Адрес, ОГРН, url и правильного Наименования в Результат-коллекция
// данные для заполнения берутся с сайта http://www.fedresurs.ru
// алгоритм чтения страницы и разбора параметров взят из //infostart.ru/public/281276/
ФР = "http://se.fedresurs.ru";
ПолучениеИзInternet = ложь;
Состояние(СтрокаРезультата.ПолноеНаименование);
Если Не ПолучениеИзInternet Тогда
КонтрагентОбъект = Справочники.Контрагенты.НайтиПоКоду(СтрокаРезультата.КонтрагентКод).ПолучитьОбъект();
КонтрагентОбъект.ахОГРН = СтрокаРезультата.ОГРН;
КонтрагентОбъект.ДополнительноеОписание =
СтрокаРезультата.Наименование+Символы.ПС
+"---***---"+Символы.ПС
+СтрокаРезультата.Адрес+Символы.ПС
+"---***---"+Символы.ПС
+СтрокаРезультата.url;
КонтрагентОбъект.Записать();
Иначе
зИНН = СокрЛП(СтрокаРезультата.СпрИНН);
Если СтрДлина(зИНН) <> 10 Тогда
СтрокаРезультата.ИНН = "***UNKNOWN INN***";
ИначеЕсли ПустаяСтрока(СтрокаРезультата.Адрес) тогда
ГетЗапрос = Новый COMОбъект("WinHttp.WinHttpRequest.5.1");
ГетЗапрос.SetTimeouts(10000, 10000, 10000, 10000);
СтрокаЗапроса = ФР+"/companies?filter=" + зИНН;
ГетЗапрос.Open("GET", СтрокаЗапроса, 0);
Попытка
ГетЗапрос.Send();
ГетЗапрос.WaitForResponse();
Исключение
Сообщить(ОписаниеОшибки());
КонецПопытки;
ResponseText = ГетЗапрос.ResponseText();
ResponseText = СтрЗаменить(ResponseText, Символы.ВК + Символы.ПС, "");
Шаблон = "<div class=""vcard listItem""(.*?)</div>\s*</div>";
СтрокаПоиска = ResponseText;
//=====================>>>[НайтиВхожденияШаблона]
// ВхожденияШаблона = НайтиВхожденияШаблона(ResponseText, ШаблонПоиска);
МассивСтрок = Новый Массив;
RegExp = Новый COMОбъект("VBScript.RegExp");
RegExp.IgnoreCase = Истина; //Игнорировать регистр
RegExp.Global = Истина; //Поиск всех вхождений шаблона
RegExp.MultiLine = Ложь; //Многострочный режим
RegExp.Pattern = Шаблон;
Matches=RegExp.Execute(СтрокаПоиска);
ЧислоВхождений=Matches.Count();
Если ЧислоВхождений>0 Тогда
Для к = 0 По ЧислоВхождений-1 Цикл
Match = Matches.Item(к);
SubMatches = Match.SubMatches;
ЧислоПодвыражений=SubMatches.Count();
МассивПодстрок = Новый Массив;
Для н = 0 По ЧислоПодвыражений-1 Цикл
SubMatch=SubMatches.Item(н);
Если SubMatch="" Тогда
Продолжить;
КонецЕсли;
МассивПодстрок.Добавить(SubMatch);
КонецЦикла;
Если МассивПодстрок.Количество() > 0 тогда
МассивСтрок.Добавить(МассивПодстрок);
КонецЕсли;
КонецЦикла;
КонецЕсли;
//=====================<<<[НайтиВхожденияШаблона]
ВхожденияШаблона = МассивСтрок;
МассивСтрок = Новый Массив;
Для каждого ТекВхождение из ВхожденияШаблона цикл
РезПоискаСтр = ТекВхождение[0];
//=====================>>>[РазобратьЭлементРезультатаПоискаФР]
Результат = Новый Соответствие;
ШаблонПоискаНаименования = "onclick="" window.location.assign\('(.*?)'.*<span class=""fn org"".*?>(.*?)<";
СтрокаПоиска = РезПоискаСтр;
Шаблон = ШаблонПоискаНаименования;
//=====================>>>[НайтиВхожденияШаблона]
// ВхожденияШаблона = НайтиВхожденияШаблона(РезПоискаСтр, ШаблонПоискаНаименования);
МассивСтрок = Новый Массив;
RegExp = Новый COMОбъект("VBScript.RegExp");
RegExp.IgnoreCase = Истина; //Игнорировать регистр
RegExp.Global = Истина; //Поиск всех вхождений шаблона
RegExp.MultiLine = Ложь; //Многострочный режим
RegExp.Pattern = Шаблон;
Matches=RegExp.Execute(СтрокаПоиска);
ЧислоВхождений=Matches.Count();
Если ЧислоВхождений>0 Тогда
Для к = 0 По ЧислоВхождений-1 Цикл
Match = Matches.Item(к);
SubMatches = Match.SubMatches;
ЧислоПодвыражений=SubMatches.Count();
МассивПодстрок = Новый Массив;
Для н = 0 По ЧислоПодвыражений-1 Цикл
SubMatch=SubMatches.Item(н);
Если SubMatch="" Тогда
Продолжить;
КонецЕсли;
МассивПодстрок.Добавить(SubMatch);
КонецЦикла;
Если МассивПодстрок.Количество() > 0 тогда
МассивСтрок.Добавить(МассивПодстрок);
КонецЕсли;
КонецЦикла;
КонецЕсли;
//=====================<<<[НайтиВхожденияШаблона]
ВхожденияШаблона = МассивСтрок;
Если ВхожденияШаблона.Количество() > 0 тогда
Результат.Вставить("url", ВхожденияШаблона[0][0]);
СтрокаРезультата.url = ФР + СокрЛП(ВхожденияШаблона[0][0]);
Наим = СокрЛП(ВхожденияШаблона[0][1]);
Наим = СтрЗаменить(Наим, """, "");
СтрокаРезультата.Наименование = Наим;
Результат.Вставить("NAME", Наим);
КонецЕсли;
ШаблонПоискаИНН = "ИНН (\d+)";
СтрокаПоиска = РезПоискаСтр;
Шаблон = ШаблонПоискаИНН;
//=====================>>>[НайтиВхожденияШаблона]
// ВхожденияШаблона = НайтиВхожденияШаблона(РезПоискаСтр, ШаблонПоискаИНН);
МассивСтрок = Новый Массив;
RegExp = Новый COMОбъект("VBScript.RegExp");
RegExp.IgnoreCase = Истина; //Игнорировать регистр
RegExp.Global = Истина; //Поиск всех вхождений шаблона
RegExp.MultiLine = Ложь; //Многострочный режим
RegExp.Pattern = Шаблон;
Matches=RegExp.Execute(СтрокаПоиска);
ЧислоВхождений=Matches.Count();
Если ЧислоВхождений>0 Тогда
Для к = 0 По ЧислоВхождений-1 Цикл
Match = Matches.Item(к);
SubMatches = Match.SubMatches;
ЧислоПодвыражений=SubMatches.Count();
МассивПодстрок = Новый Массив;
Для н = 0 По ЧислоПодвыражений-1 Цикл
SubMatch=SubMatches.Item(н);
Если SubMatch="" Тогда
Продолжить;
КонецЕсли;
МассивПодстрок.Добавить(SubMatch);
КонецЦикла;
Если МассивПодстрок.Количество() > 0 тогда
МассивСтрок.Добавить(МассивПодстрок);
КонецЕсли;
КонецЦикла;
КонецЕсли;
//=====================<<<[НайтиВхожденияШаблона]
ВхожденияШаблона = МассивСтрок;
Если ВхожденияШаблона.Количество() > 0 тогда
// Результат.Вставить("INN", ЗаменитьКривыеСимволы(СокрЛП(ВхожденияШаблона[0][0])));
Результат.Вставить("INN", СокрЛП(ВхожденияШаблона[0][0]));
СтрокаРезультата.ИНН = СокрЛП(ВхожденияШаблона[0][0]);
КонецЕсли;
ШаблонПоискаОГРН = "ОГРН (\d+)";
СтрокаПоиска = РезПоискаСтр;
Шаблон = ШаблонПоискаОГРН;
//=====================>>>[НайтиВхожденияШаблона]
// ВхожденияШаблона = НайтиВхожденияШаблона(РезПоискаСтр, ШаблонПоискаОГРН);
МассивСтрок = Новый Массив;
RegExp = Новый COMОбъект("VBScript.RegExp");
RegExp.IgnoreCase = Истина; //Игнорировать регистр
RegExp.Global = Истина; //Поиск всех вхождений шаблона
RegExp.MultiLine = Ложь; //Многострочный режим
RegExp.Pattern = Шаблон;
Matches=RegExp.Execute(СтрокаПоиска);
ЧислоВхождений=Matches.Count();
Если ЧислоВхождений>0 Тогда
Для к = 0 По ЧислоВхождений-1 Цикл
Match = Matches.Item(к);
SubMatches = Match.SubMatches;
ЧислоПодвыражений=SubMatches.Count();
МассивПодстрок = Новый Массив;
Для н = 0 По ЧислоПодвыражений-1 Цикл
SubMatch=SubMatches.Item(н);
Если SubMatch="" Тогда
Продолжить;
КонецЕсли;
МассивПодстрок.Добавить(SubMatch);
КонецЦикла;
Если МассивПодстрок.Количество() > 0 тогда
МассивСтрок.Добавить(МассивПодстрок);
КонецЕсли;
КонецЦикла;
КонецЕсли;
//=====================<<<[НайтиВхожденияШаблона]
ВхожденияШаблона = МассивСтрок;
Если ВхожденияШаблона.Количество() > 0 тогда
// Результат.Вставить("OGRN", ЗаменитьКривыеСимволы(СокрЛП(ВхожденияШаблона[0][0])));
Результат.Вставить("OGRN", СокрЛП(ВхожденияШаблона[0][0]));
СтрокаРезультата.ОГРН = СокрЛП(ВхожденияШаблона[0][0]);
КонецЕсли;
ШаблонПоискаАдреса = "Адрес: (.*?)<";
СтрокаПоиска = РезПоискаСтр;
Шаблон = ШаблонПоискаАдреса;
//=====================>>>[НайтиВхожденияШаблона]
// ВхожденияШаблона = НайтиВхожденияШаблона(РезПоискаСтр, ШаблонПоискаАдреса);
МассивСтрок = Новый Массив;
RegExp = Новый COMОбъект("VBScript.RegExp");
RegExp.IgnoreCase = Истина; //Игнорировать регистр
RegExp.Global = Истина; //Поиск всех вхождений шаблона
RegExp.MultiLine = Ложь; //Многострочный режим
RegExp.Pattern = Шаблон;
Matches=RegExp.Execute(СтрокаПоиска);
ЧислоВхождений=Matches.Count();
Если ЧислоВхождений>0 Тогда
Для к = 0 По ЧислоВхождений-1 Цикл
Match = Matches.Item(к);
SubMatches = Match.SubMatches;
ЧислоПодвыражений=SubMatches.Count();
МассивПодстрок = Новый Массив;
Для н = 0 По ЧислоПодвыражений-1 Цикл
SubMatch=SubMatches.Item(н);
Если SubMatch="" Тогда
Продолжить;
КонецЕсли;
МассивПодстрок.Добавить(SubMatch);
КонецЦикла;
Если МассивПодстрок.Количество() > 0 тогда
МассивСтрок.Добавить(МассивПодстрок);
КонецЕсли;
КонецЦикла;
КонецЕсли;
//=====================<<<[НайтиВхожденияШаблона]
ВхожденияШаблона = МассивСтрок;
Если ВхожденияШаблона.Количество() > 0 тогда
// Результат.Вставить("ADRESTEXT", ЗаменитьКривыеСимволы(СокрЛП(ВхожденияШаблона[0][0])));
Результат.Вставить("ADRESTEXT", СокрЛП(ВхожденияШаблона[0][0]));
СтрокаРезультата.Адрес = СокрЛП(ВхожденияШаблона[0][0]);
КонецЕсли;
//=====================<<<[РазобратьЭлементРезультатаПоискаФР]
// МассивСтрок.Добавить(РазобратьЭлементРезультатаПоискаФР(РезПоиска));
МассивСтрок.Добавить(Результат);
КонецЦикла;
КонецЕсли;
КонецЕсли;
заполнение таблицы для 4848 строк прошло за 14 минут
Выполнение завершено, обработано 4 848 элементов за 0:13:57 (837 сек). Грубое среднее время обработки элемента - 172,65 мс
Готовый файл для Консоли запросов (ИР) можно скачать ниже.