gifts2017

Оптимальный способ расчета контрольной суммы объекта/записи регистра (CRC32, MD5, SHA1, SHA256)

Опубликовал Дмитрий Топчий (hakerxp) в раздел Обработки - Универсальные обработки

Была задача сравнить документы в распределенных базах и пометить на выгрузку измененные. Но сравнение изменений документов методом перебора реквизитов - долгоиграющий процесс, особенно если общее количество сравниваемых данных переваливает за миллион. Был найден выход, который ускоряет процесс сравнения - расчет контрольной суммы объекта и сравнение ее с другой контрольной суммой. Скорость сравнения увеличивается во много раз.

В данной обработке приведен способ расчета контрольной суммы объекта базы данных 1С. При любом изменении данных объекта, контрольная сумма меняется. Вариант расчета контрольной суммы меняем программно. В моем случае CRC32 как раз подходит - это число.

Это может быть полезно:

  • При сравнении документов в различных базах, и не только РИБ
  • В механизме определения, изменен ли объект в журналах изменений.
  • В тех областях, о которых я еще не знаю.

Вот сам код обработки:

&НаСервере
Процедура Рассчитать()
    Объект=Ссылка.ПолучитьОбъект();
	ПолучитьХешОбъекта(Объект);
КонецПроцедуры

&НаСервере
Процедура ПолучитьХешОбъекта(Объект)
	ЗаписьXML = Новый ЗаписьXML;
	ЗаписьXML.УстановитьСтроку();
	
	СериализаторXDTO.ЗаписатьXML(ЗаписьXML,Объект);
	ДанныеСтрока=ЗаписьXML.Закрыть();
	
	Хеш=Новый ХешированиеДанных(ХешФункция.CRC32);
	Хеш.Добавить(ДанныеСтрока);
	
	Сообщить(Хеш.ХешСумма);
КонецПроцедуры

Обновлено от 03.08.2016! Если нужно получить контрольную сумму ссылочного объекта, то код выше это делает. Если нужно получить контрольную сумму записей регистров сведений, например, то лучше использовать либо наборы записей (медленный способ), либо получить данные записей запросом, и каждую запись преобразовать в структуру, и уже ее использовать для расчета контрольной суммы (быстрый способ). 

Вот примерный код:

СтрокаИзмерений="";

Для каждого Измерение Из ОбъектМетаданных.Измерения Цикл
	СтрокаИзмерений=СтрокаИзмерений+?(ПустаяСтрока(СтрокаИзмерений),Измерение.Имя,","+Измерение.Имя);
КонецЦикла;

Если ОбъектМетаданных.ПериодичностьРегистраСведений<>Метаданные.СвойстваОбъектов.ПериодичностьРегистраСведений.Непериодический Тогда
	СтрокаИзмерений=СтрокаИзмерений+?(ПустаяСтрока(СтрокаИзмерений),"Период",",Период");	 
КонецЕсли;

Для каждого Ресурс Из ОбъектМетаданных.Ресурсы Цикл
	СтрокаИзмерений=СтрокаИзмерений+?(ПустаяСтрока(СтрокаИзмерений),Ресурс.Имя,","+Ресурс.Имя);
КонецЦикла;

Для каждого Реквизит Из ОбъектМетаданных.Реквизиты Цикл
	СтрокаИзмерений=СтрокаИзмерений+?(ПустаяСтрока(СтрокаИзмерений),Реквизит.Имя,","+Реквизит.Имя);
КонецЦикла;

СтруктураДанных=Новый Структура(СтрокаИзмерений);

Выборка=РегистрыСведений[Имя].Выбрать();

Пока Выборка.Следующий() Цикл
	ЗаполнитьЗначенияСвойств(СтруктураДанных,Выборка);
	ХешСумма=ПолучитьХешОбъекта(СтруктураДанных);
КонецЦикла;

Обновлено от 09.08.2016! Как показала практика, применение способа ПолучитьОбъект() для расчета контрольной суммы не всегда оптимально (если много объектов и немного оперативной памяти) и приводит к нехватке памяти т.к. полученные объекты не удаляются из оперативной памяти, а остаются там до окончания процесса. Код вида "Объект=Неопределено"  никогда не помогает!

Был найден обходной путь, через запрос. При этом память не забивается, а скорость даже возросла.

Вот пример кода для документов:

Запрос = Новый Запрос;
Запрос.Текст ="ВЫБРАТЬ * ИЗ "+ОбъектМетаданных.ПолноеИмя(); 
				
Результат=Запрос.Выполнить();
Выборка=Результат.Выбрать();
			
СтрокаРеквизитов="";
Для каждого Колонка Из Результат.Колонки Цикл
	Если Колонка.Имя="ВерсияДанных" ИЛИ Колонка.Имя="МоментВремени" ИЛИ Колонка.Имя="Предсталение" Тогда Продолжить; КонецЕсли;
	
    СтрокаРеквизитов=СтрокаРеквизитов+?(ПустаяСтрока(СтрокаРеквизитов),"",",")+Колонка.Имя;
КонецЦикла;
			
СтруктураОбъекта=Новый Структура(СтрокаРеквизитов);
			
Пока Выборка.Следующий() Цикл
	ЗаполнитьЗначенияСвойств(СтруктураОбъекта,Выборка);
	Для каждого ТабЧасть Из ОбъектМетаданных.ТабличныеЧасти Цикл
		 СтруктураОбъекта.Вставить(ТабЧасть.Имя,Выборка[ТабЧасть.Имя].Выгрузить()); 
	КонецЦикла; 
	ХешСумма=ПолучитьХешОбъекта(СтруктураОбъекта);
КонецЦикла;

Функция ПолучитьХешОбъекта(Объект)
	ЗаписьXML = Новый ЗаписьXML;
	ЗаписьXML.УстановитьСтроку();
	
	СериализаторXDTO.ЗаписатьXML(ЗаписьXML,Объект);
	ДанныеСтрока=ЗаписьXML.Закрыть();
	
	Хеш=Новый ХешированиеДанных(ХешФункция.CRC32);
	Хеш.Добавить(ДанныеСтрока);
	
	Возврат Хеш.ХешСумма;
КонецФункции;

Скачать файлы

Наименование Файл Версия Размер Кол. Скачив.
Контрольная сумма объекта
.epf 5,96Kb
01.08.16
1
.epf 5,96Kb 1 Скачать

См. также

PowerTools от 1 000
Подписаться Добавить вознаграждение

Комментарии

1. Валерий К (klinval) 01.08.16 11:50
Не понял в чём суть алгоритма вычисления контрольной суммы?
Или в этом и фишка: скачай обработку, посмотри код и увидишь алгоритм?
2. Дмитрий Топчий (hakerxp) 01.08.16 12:02
(1), в обработке пример расчета контрольной суммы.
3. Александр Губанов (gubanoff) 01.08.16 13:08
Неплохо бы в статье рассказать, как и что.
4. Призрак (davdykin) 01.08.16 13:48
Действительно, вы бы хоть принцип рассказали, я так понимаю эти алгоритмы считают хэш строк, как вы получаете эту строку
5. A X (ditp) 01.08.16 13:49
(3) gubanoff,
Ой та шо там рассказывать... получаем некое описание объекта и считаем от него хеш.
Например так:

Функция ХэшДокумента(СсылкаНаДокум)
	Докум	= СсылкаНаДокум.ПолучитьОбъект();
	мтДок	= Докум.Метаданные();
	зап		= Новый ЗаписьXML;
	зап.УстановитьСтроку();
	зап.ЗаписатьНачалоЭлемента("obj");
	зап.ЗаписатьАтрибут("Дата"	, XMLСтрока(Докум.Дата));
	зап.ЗаписатьАтрибут("Номер"	, XMLСтрока(Докум.Номер));
	зап.ЗаписатьАтрибут("Пров"	, XMLСтрока(Докум.Проведен));
	зап.ЗаписатьАтрибут("Удал"	, XMLСтрока(Докум.ПометкаУдаления));
	Для Каждого рекв Из мтДок.Реквизиты Цикл
		зап.ЗаписатьАтрибут(рекв.Имя, XMLСтрока(Докум[рекв.Имя]));
	КонецЦикла;
	Для Каждого тч Из мтДок.ТабличныеЧасти Цикл
		зап.ЗаписатьНачалоЭлемента(тч.Имя);
		Для Каждого стр Из Докум[тч.Имя] Цикл
			зап.ЗаписатьНачалоЭлемента("line");
			Для Каждого рекв из тч.Реквизиты Цикл
				зап.ЗаписатьАтрибут(рекв.Имя, XMLСтрока(стр[рекв.Имя]));
			КонецЦикла;
			зап.ЗаписатьКонецЭлемента();
		КонецЦикла;
		зап.ЗаписатьКонецЭлемента();
	КонецЦикла;
	зап.ЗаписатьКонецЭлемента();

	хеш	= Новый ХешированиеДанных(ХешФункция.SHA1);
	хеш.Добавить(зап.Закрыть());
	
	Возврат хеш.ХешСумма;
КонецФункции
...Показать Скрыть


В примере -- документ, но для всего остального аналогично.
Вместо SHA1 можно использовать CRC, MD5 или SHA256.
6. Дмитрий Топчий (hakerxp) 01.08.16 14:42
(5), сложно у вас написано. Все намного проще. По просьбе трудящихся выкладываю текст.
7. Александр Губанов (gubanoff) 01.08.16 16:01
(6) hakerxp, ну вот, все стало понятно. Как и предполагалось, выгрузка в ХМЛ и получение хеша от файла. Эталонный подход :)
8. Роман Осадченко (cleaner_it) 03.08.16 11:45
(6) (7) gubanoff, тогда непонятно, откуда взялся выигрыш по скорости. Для начала нужно рассчитать хеш для миллионов записей, а это тоже время.
9. Дмитрий Топчий (hakerxp) 03.08.16 12:21
(8), получение объекта или создание структуры данных записи, намного быстрее, чем перебирать реквизиты, измерения, ресурсы и искать отличия. Ну и проще. Приведу пример. У меня система сравнивает данные независимых регистров сведений в различных базах РИБ. Таблица общая получается более 1 млн. записей. Так вот - затраты на создание данной таблица по времени - около 10 мин. в одной базе и столько же в другой. Время сравнения по моему алгоритму - так же 10-15 мин. (больше времени тратится на регистрацию данных для обмена, чем на сравнение). Железо не серверное. База и СУБД пашут на простом жестком, не SSD.
Для написания сообщения необходимо авторизоваться
Прикрепить файл
Дополнительные параметры ответа