Поиск дублей по полям ключей шапки, табличных частей (используем hash функцию)

08.07.24

Рассмотрим быстрый алгоритм поиска дублей с использованием hash функции по набору полей шапки и табличных частей.

Достаточно часто встречаются задачи поиска одинаковых элементов справочников и других объектов данных - поиск дублей данных. Обычно критерии поиска достаточно простые - содержат один или несколько полей из "шапки" элемента метаданных. Но иногда условия бывают сложными - выполнить поиск с учетом совпадения полей в табличных частях, например, найти одинаковые ресурсные спецификации, у которых номенклатура в рецептуре совпадает.

Когда данных у нас тысячи или сотни тысяч, то алгоритм поиска в лоб путем перебора будет достаточно длительной операцией. И в этом случае требуется более производительный механизм, особенно, когда хочется искать дубли практически онлайн. Возникает вопрос: "А как можно решить подобную задачу?".

И в этой статье я хочу рассказать об одном таком алгоритме, который использует хеширование данных для поиска в прикладных задачах на языке 1С.

Структура статьи:

стандартный алгоритм поиска
алгоритм с использование хеширования
замечания к алгоритму хеширования
еще один вариант использования
заключение

Стандартный алгоритм поиска - простая задача

Сначала рассмотрим простую задачу нахождения одинаковых элементов данных справочников номенклатуры при заведении новой карточки элемента. У нас есть критерий поиска соответствия по равенству артикула, тогда мы можем написать достаточно простой запрос для поиска наличия дублей в алгоритме перед записью:

Алгоритм поиска дублей по артикулу

//...

Запрос = Новый Запрос();
Запрос.Текст = "ВЫБРАТЬ
|	Номенклатура.Ссылка КАК Ссылка
|ИЗ
|	Справочник.Номенклатура КАК Номенклатура
|ГДЕ
|	Номенклатура.Артикул = &Артикул
|	И НЕ Номенклатура.ПометкаУдаления";

Запрос.УстановитьПараметр("Артикул",Артикул);

РезультатЗапроса = Запрос.Выполнить();    

Отказ = НЕ РезультатЗапроса.Пустой();

//...

Усложненная задача - алгоритм с использованием хеширования (hash функции)

Теперь усложним задачу. Мы хотим при заведении новой ресурсной спецификации проверять, а существуют ли спецификации с подобным составом материалов. Иными словами, если совпадает состав сырья и количество на одну единицу продукции, то скорее всего мы пытаемся создать дубль.

Рис. Пример задачи поиска дублей по справочнику ресурсные спецификации

Теперь при попытке написать запрос, то мы должны будем решить достаточно сложную задачу - мы должны будем сравнить табличную часть без учета порядка строк по равенству сырья и равенству количества. Писать подобный запрос мы не будем, а будем использовать механизм сравнения хешированием.

С одним из примеров использования подобного алгоритма можно ознакомиться, если почитать про работу оператора соединения хешированием - hash_join в различных СУБД.

Для реализации этого алгоритма под задачи нахождения дублей нам потребуется выполнить следующие вещи:

Добавить новый строковый реквизит и назвать его hash_ключ (не забываем его проиндексировать)
Создать функцию для вычисления этого ключа перед записью
При поиске дублей мы получим hash_ключ создаваемого элемента и выполним запрос поиска в таблице спецификаций

Думаю, что с задачей добавления нового реквизита и его индексирования мы справимся без проблем, поэтому опустим этот момент.

Функцию создания ключа при записи элемента можно описать следующим образом:

Процедура ПередЗаписью(Отказ)

	// ...
	hash_Ключ = ПолучитьHashКлюч(ЭтотОбъект);
	// ...

КонецПроцедуры


Функция ПолучитьHashКлюч(Источник,СортировкаСтрок=Истина)
	
	КлючевыеПоляШапки="ОсновноеИзделиеНоменклатура,ОсновноеИзделиеХарактеристика";
	КлючевыеПоляТабличнойЧастиМатериалы = "Номенклатура,Характеристика,КоличествоУпаковок";
	
	// 1. Формируем описание объекта поиска
	МассивСтруктур = Новый Массив;
	
	// по шапке
	ПолучитьМассивСтруктурОбъекта(Источник,МассивСтруктур,СтрРазделить(КлючевыеПоляШапки,","));
	
	// по материалам
	МассивЧастей = СтрРазделить(КлючевыеПоляТабличнойЧастиМатериалы,",");
	
	Если СортировкаСтрок=Истина Тогда      
		ТаблицаТЧ = Источник.МатериалыИУслуги.Выгрузить();
		ТаблицаТЧ.Сортировать(КлючевыеПоляТабличнойЧастиМатериалы);
	Иначе
		ТаблицаТЧ = Источник.МатериалыИУслуги;
	КонецЕсли;
	
	Для Каждого стр из ТаблицаТЧ Цикл
		ПолучитьМассивСтруктурОбъекта(стр,МассивСтруктур,МассивЧастей);	
	КонецЦикла;                    
	
	// 2. Преобразуем в XML
	ЗаписьXML = Новый ЗаписьXML;
	ЗаписьXML.УстановитьСтроку();
	СериализаторXDTO.ЗаписатьXML(ЗаписьXML,МассивСтруктур);
	
	// 3. Формируем хеш
	Хешировавние  = Новый ХешированиеДанных(ХешФункция.SHA512);
	Хешировавние.Добавить(ЗаписьXML.Закрыть());	
	
	Возврат Хешировавние.ХешСумма;
	
КонецФункции      


Процедура ПолучитьМассивСтруктурОбъекта(Источник,ТаблицаСравнения,МассивЧастей)
	
	Для каждого рек из МассивЧастей Цикл
		ТаблицаСравнения.Добавить(Новый Структура("Реквизит,Значение",рек,Источник[рек]));
	КонецЦикла;	
	
КонецПроцедуры

Рассмотрим кратко логику работы алгоритма:

Сначала мы получаем данные по ключам, которые будем использовать для сравнения. Эти данные сохраняются в массиве структур.
Обратите внимание! Мы используем опцию сортировки строк табличной части, благодаря этому достигается независимость алгоритма от положения строк.
Следующим шагом мы преобразуем полученную таблицу в xml текст
И от этого текста мы получаем hash значение, которое в дальнейшем используется как ключ сравнения.

Рис. Порядок строк может меняться

Функция проверки на дубли получится такой-же простой, как и вариант выше:

Поиск дублей по hash-ключу

//...

Запрос = Новый Запрос();
Запрос.Текст = "ВЫБРАТЬ
|	РС.Ссылка КАК Ссылка
|ИЗ
|	Справочник.РесурсныеСпецификации КАК РС
|ГДЕ
|	РС.hash_ключ = &hash_ключ
|	И НЕ РС.ПометкаУдаления";   

Запрос.УстановитьПараметр("hash_ключ",ПолучитьHashКлюч(ЭтотОбъект));

РезультатЗапроса = Запрос.Выполнить();    

Отказ = НЕ РезультатЗапроса.Пустой();

//...

В качестве альтернативного варианта использования алгоритма, можно рассмотреть создание обработки по поиску дублей в уже существующих данных (поиск дублей для одного элемента). Ниже приведен снимок экранной формы этой обработки.

Рис. Пример использования алгоритма - обработка сравнения

Замечания к алгоритму

Ограничения применения. Данный алгоритм работает по равенству, иными словами вы можете искать только при условии равно. Если у вас встречаются комбинации с условием "ИЛИ", тогда вам придется бить алгоритм на части. А вот при условии больше или меньше он не умеет работать совсем.

Также обращаю ваше внимание, что алгоритм "жесткий", а не вероятностный, т.е. дает ответ на вопрос соответствия - только да или нет.

Быстродействие. За счет того что новый реквизит проиндексирован и он один, поиск будет работать очень быстро. А вот при использовании типового алгоритма вам потребуется написать достаточно сложный запрос (вероятно пакет запросов) и для вероятной быстрой работы проиндексировать большинство полей при использовании, что не всегда является возможным (особенно если мы не хотим снимать с поддержки типовую конфигурацию) и рациональным (наличие большого количества индексов не только приносит пользу, но и вред) и не всегда помогает.

Коллизии. При использования алгоритма существует небольшая вероятность создания одинакового hash-ключа для двух разных элементов, поэтому после определения потенциальных дублей, рекомендуется провести дополнительную проверку на совпадение данных сопоставлением элементов вручную. Поэтому можно добавить небольшое дополнение - функцию сравнения массивов структур совпавших элементов.

Еще один алгоритм

Рассмотрим еще один алгоритм хеширования, когда выполняется неявное преобразование для разработчика самой платформой 1С. Возможно вы уже догадались что речь идет про один из видов универсальных коллекций значений - Соответствие.

Давайте рассмотрим некоторую простую, но показательную задачу. Пусть нам требуется создать некоторый список с дублями контрагентов. Мы хотим найти контрагентов с одинаковыми ИНН+КПП.

Замечание! Такой алгоритм мы достаточно часто используем при загрузке сырых данных из внешних источников, таких как например Excel.

Алгоритм действий следующий:

создадим новое соответствие
загрузим данные в какую-нибудь коллекцию данных, таблицу значений и т.п.
перебираем в цикле данные и помещаем в соответствие значения, когда ключ у нас получается из требуемого условия

Алгоритм к задаче использования универсальной коллекции значений - соответствие

Процедура НайтиДублиКонтрагентовНаСервере()
	
	// 1. Формируем новую коллекцию
	ДублиКонтрагентов = Новый Соответствие;
	
	// 2. Получим данные
	Запрос = Новый Запрос;
	Запрос.Текст = "ВЫБРАТЬ
	|	Контрагенты.ИНН КАК ИНН,
	|	Контрагенты.КПП КАК КПП,
	|	Контрагенты.Ссылка КАК Ссылка
	|ИЗ
	|	Справочник.Контрагенты КАК Контрагенты";
	
	Выборка = Запрос.Выполнить().Выбрать();
	
	// 3. Ищем дубли	
	Пока Выборка.Следующий() Цикл
		Ключ = Выборка.ИНН+"/"+Выборка.КПП;
		МассивДублей = ДублиКонтрагентов.Получить(Ключ);
		Если МассивДублей=Неопределено Тогда
			МассивДублей = Новый Массив();
			ДублиКонтрагентов.Вставить(Ключ,МассивДублей);
		КонецЕсли;                     
		МассивДублей.Добавить(Выборка.Ссылка);
	КонецЦикла;                        
	
	// 4. Обработка (загружаем в таблицу с колонками - Ключ, Количество и СписокЗначений)
	ТаблицаДублейКонтрагентов.Очистить();
	Для каждого эл из ДублиКонтрагентов Цикл
		стр_н = ТаблицаДублейКонтрагентов.Добавить();
		стр_н.Ключ = эл.Ключ;
		стр_н.Количество = эл.Значение.Количество();
		стр_н.СписокЗначений.ЗагрузитьЗначения(эл.Значение);
	КонецЦикла;  	
	
КонецПроцедуры

Рис. Пример обработки поиска дублей с помощью универсальной коллекции - соответствие

Заключение

Мы рассмотрели основную идею и подход, практическое использование остается за Вами и зависит от конкретной ситуации. Вариации же рассмотренного алгоритма довольно успешно применяется на практике. Фактически рассмотренный подход достаточно быстрый и простой для реализации, подходит для тех случаев, когда использование альтернативных решений не целесообразно.

Быстрый поиск дублей в 1С: 8.1–8.3

Решение выполняет четкий и нечеткий поиск дублей по любым комбинациям реквизитов и табличных частей, позволяет быстро находить и заменять совпадения. Работает во всех версиях 1С 8.1–8.3 и в 5 раз быстрее стандартных обработок.

Подробнее

Вступайте в нашу телеграмм-группу Инфостарт

поиск дубли хеширование hash

+24 –

См. также

Infostart Toolkit: Инструменты для разработчика 1С:8.3

Инструментарий разработчика Роли и права Запросы СКД Программист Руководитель проекта 1С:Предприятие 8 Платные (руб)

Инструменты для разработчиков 1С 8.3: Infostart Toolkit. Автоматизация и ускорение разработки на управляемых формах. Легкость работы с 1С.

16500 руб.

02.09.2020 252144 1397 421

1147

Консоль запросов ЗУП с поддержкой обращения к методам программного интерфейса в запросах

Инструментарий разработчика Запросы Программист 1С:Предприятие 8 1С:Зарплата и кадры государственного учреждения 3 1С:Зарплата и Управление Персоналом 3.x Абонемент ($m)

QueryConsole1C — расширение, включающее консоль запросов с поддержкой исполняемых представлений — аналогов виртуальных таблиц, основанных на методах программного интерфейса ЗУП. Оно позволяет выполнять запросы с учётом встроенной бизнес-логики, отлаживать алгоритмы получения данных и автоматически генерировать код на встроенном языке 1С.

1 стартмани

16.05.2025 10511 142 zup_dev 30

Шпаргалка по запросам

Запросы Программист Бесплатно (free)

Увидел cheatsheet по SQL и захотелось нарисовать подобное, но про запросы.

18.10.2024 22359 sergey279 18

Ловушка функции запроса АВТОНОМЕРЗАПИСИ()

Запросы Программист 1С:Предприятие 8 1C:Бухгалтерия Бесплатно (free)

Столкнулся с интересной ситуацией, которую хотел бы разобрать, ввиду её неочевидности. Речь пойдёт про использование функции запроса АВТОНОМЕРЗАПИСИ() и проблемы, которые могут возникнуть.

11.10.2024 17406 XilDen 39

111

Генератор текстов запросов 1С из естественного языка LLM GPT

Инструментарий разработчика Запросы Программист Стажер 1С:Предприятие 8 1C:Бухгалтерия Бесплатно (free)

Пишем на человеческом языке, что нам надо, и получаем текст запроса на языке 1С. Используются большие языковые модели (LLM GPT) от OpenAI или Яндекс на выбор.

15.01.2024 18643 415 mkalimulin 32

Начните уже использовать хранилище запросов

HighLoad оптимизация Запросы

Очень немногие из тех, кто занимается поддержкой MS SQL, работают с хранилищем запросов. А ведь хранилище запросов – это очень удобный, мощный и, главное, бесплатный инструмент, позволяющий быстро найти и локализовать проблему производительности и потребления ресурсов запросами. В статье расскажем о том, как использовать хранилище запросов в MS SQL и какие плюсы и минусы у него есть.

11.10.2023 25237 skovpin_sa 15

106

Поиск часто повторяющихся запросов

HighLoad оптимизация Запросы Мониторинг Программист Бесплатно (free)

Расскажем, как найти часто повторяющиеся запросы.

05.10.2023 10582 ivanov660 3

MS SQL Server: изучаем планы запросов

Запросы HighLoad оптимизация Программист 1С:Предприятие 8 Бесплатно (free)

Многие знают, что для ускорения работы запроса нужно «изучить план». При этом сам план обычно обескураживает: куча разноцветных иконок и стрелочек; ничего не понятно, но очень интересно! Аналитик производительности Александр Денисов на конференции Infostart Event 2021 Moscow Premiere рассказал, как выполняется план запроса и что нужно сделать, чтобы с его помощью находить проблемы производительности.

20.06.2023 47661 Филин 37

126

Отзывы

6. SergMuravev 882 11.07.24 13:26 Сейчас в теме

Можно использовать обертку в виде функции ОбщегоНазначения.КонтрольнаяСуммаСтрокой

Остальные комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. nenavizhuSKD 09.07.24 09:36 Сейчас в теме

Ну задача точного совпадения табличных частей на практике мне не попадалась ни разу)) А вот задача проверить, например, что больше половины строк совпадает, или какой-то условный процент, попадается регулярно. Решаю я ее внутренним соединением по равенству нужных мне реквизитов с подсчетом количества. Работает быстро, проблем нет. Хеш-методикой такую задачу не решить. Впрочем, можно замутить хеш на каждую строку, да, по нужным реквизитам. Возможно это облегчило бы такую задачу, в другой раз попробую

Точно так же, совпадение контрагентов по названию и ИНН прекрасно решается запросом с Количество(*) СГРУППИРОВАТЬ ПО ИНН, Наименование. Вместо того, чтобы в цикле перебирать запрос и всё такое. С другой стороны, ну сколько там может быть контрагентов? Всего юр.лиц у нас миллионов 5 в стране, с учетом дублей ну пусть хорошо 50млн. На таких объемах в принципе любой алгоритм сработает относительно быстро.

В 7.7 нельзя было искать сразу по двум полям в таблице значений. Вот там, помню, спасались хешами....

2. ivanov660 4964 09.07.24 10:23 Сейчас в теме

(1)
1. Предположу, что вам не часто приходилось решать задачи, когда требуется применять данный подход. Но на самом деле их достаточно много, когда требуется использовать преимущества hash таблиц.
2. Быстро у вас запрос отработает по ИНН, потому что обычно поле это проиндексировано в типовых конфигурациях. Если же задача будет стоять поиск дублей по полному наименованию и т.п., то запрос уже будет не такой шустрый. И относительно быстро для одного пользователя, будет выглядеть уже не так весело, когда их 1000.

3. user612295_death4321 09.07.24 15:37 Сейчас в теме

Главное не пробовать применять данный алгоритм в комбинации с ЗначениеВСтрокуВнутр.

Я когда-то проигнорировал примечание:
Используется для сохранения функциональной совместимости с 1С:Предприятием 7.7. Использовать для других целей не рекомендуется.

и долго ломал голову, почему на одних и тех же отсортированных данных разный хеш.

4. siamagic 09.07.24 22:01 Сейчас в теме

Просто сортируешь тч, сериализуешь.

5. ALmighty 10.07.24 14:32 Сейчас в теме

лучше использовать SHA256
у этого метода есть процессорная аппаратная поддержка

6. SergMuravev 882 11.07.24 13:26 Сейчас в теме

Можно использовать обертку в виде функции ОбщегоНазначения.КонтрольнаяСуммаСтрокой

9. ivanov660 4964 19.07.24 14:36 Сейчас в теме

(6)
1. Да, можно, хорошее замечание. Код аналогичен.
2. Не во всех конфигурациях, есть БСП, поэтому оставим пример в таком формате.

7. Casey1984 3 12.07.24 15:50 Сейчас в теме

Делал похожее при миграции с УПП на ERP. Нужно было из номенклатурной каши собрать удобную структуру, группируя по не помню каким признакам ;-)

8. triviumfan 101 15.07.24 12:57 Сейчас в теме

ПолучитьМассивСтруктурОбъекта()

Я бы переименовал её на "ЗаполнитьМассивСтруктурОбъекта() либо сделал функцией.
Согласен с предыдущим постом - в БСП уже есть расчет хешсуммы.

10. пользователь 30.03.26 12:47

Сообщение было скрыто модератором.

...

Для отправки сообщения требуется регистрация/авторизация

Автор:

Владимир Крючков (ivanov660)

Рейтинг: 4964

Для получения уведомлений о новых публикациях автора подключите телеграм бот: Инфостарт бот

Публикация:

№ 2139385

Создание 08.07.24 09:00

Обновление 08.07.24 09:00

Статистика:

Просмотры 5451

Загрузки 0

Рейтинг 24

Комментарии 9

Характеристики:

Код открыт Да

Рубрики Математика и алгоритмы Запросы

Кому Программист

Тип файла Нет файла

Платформа 1С:Предприятие 8

Конфигурация Универсальные

Операционная система Не имеет значения

Страна Не имеет значения

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Бесплатно (free)

Поиск дублей по полям ключей шапки, табличных частей (используем hash функцию)

Стандартный алгоритм поиска - простая задача

Усложненная задача - алгоритм с использованием хеширования (hash функции)

Замечания к алгоритму

Еще один алгоритм

Заключение

Быстрый поиск дублей в 1С: 8.1–8.3

См. также

Журнал

База знаний

Лаборатория

Анализ & Управление

Сопровождение 1С

Корпоративные решения

Обучение

Маркетплейс

Проектный офис

Мероприятия

Видеозаписи

Биржа заказов

Форум

Мерч

О компании