Баттерфляй - метод быстрого расчета нарастающего итога в запросе

21.09.13

Разработка - Запросы

Описывается метод предельно быстрого расчета нарастающего итога в запросе для случая, когда суммируемые строки таблицы пронумерованы.
В качестве только одного из возможных примеров использования метода приведен отчет по остаткам номенклатуры на каждый интервал (минуту, час, день, месяц, квартал,год) заданного периода.

Скачать файлы

Наименование Файл Версия Размер
ОбработкаДляСравнительногоТестирования
.erf 9,87Kb
30
.erf 9,87Kb 30 Скачать
Отчет "Остатки на каждый интервал периода"
.erf 10,47Kb
60
.erf 10,47Kb 60 Скачать

Введение

Вычисление нарастающего итога является составной частью большого количества вычислительных процедур в задачах учета и управления /*/. На нем основан расчет себестоимости списаний по партиям, автоматическое распределение сумм оплат по документам движения товаров и многие другие важные алгоритмы в конфигурациях на платформе «1С: Предприятие». Собственно само наличие в платформе механизма итогов регистров накопления (остатков) является следствием необходимости хранения как раз результатов расчета нарастающих итогов из-за того, что их оперативное вычисление сопряжено с существенными затратами вычислительных ресурсов.

Сложность расчета нарастающего итога в запросах обусловлена реляционной природой СУБД, хранящей исходные данные и результаты вычислений. Записи одной и той же таблицы принципиально не связаны между собой, что и порождает проблему их последовательного суммирования в процессе расчета нарастающего итога. О том, что проблема затрагивает не только решения на основе платформы «1С: Предприятие», можно судить по работе[Нарастающий итог сравнение производительности].

Обычный подход к решению задачи получения нарастающего итога в запросе заключается в том, что для каждой строки таблицы находится сумма элементов предыдущих строк. Для примера приведен запрос, подсчитывающий нарастающий итог по таблице «Таб», состоящей из колонки с номером строки «ё» и колонки суммируемого показателя «а»

ВЫБРАТЬ
	СУММА(ДоДано.Сумма) КАК Сумма
ИЗ
	Дано КАК Дано
		ВНУТРЕННЕЕ СОЕДИНЕНИЕ Дано КАК ДоДано
		ПО Дано.НомерСтроки >= ДоДано.НомерСтроки
СГРУППИРОВАТЬ ПО
	Дано.НомерСтроки

При использовании приведенного запроса расчет по каждой строке делается независимо от результатов расчетов других строк. Это порождает проблему быстродействия данного подхода, так как число элементарных операций, а в итоге и затраты времени оказываются пропорциональными половине квадрата числа строк исходной таблицы. То есть при увеличении числа строк в таблице в десять раз, время расчета увеличивается в сто раз! О квадратичной зависимости свидетельствует следующая схема расчета нарастающего итога в таблице из восьми элементов Фиг.0.

Дано\ДоДано 1 1 1 1 1 1 1 1 Сумма
1 1               1
1 1 1             2
1 1 1 1           3
1 1 1 1 1         4
1 1 1 1 1 1       5
1 1 1 1 1 1 1     6
1 1 1 1 1 1 1 1   7
1 1 1 1 1 1 1 1 1 8

Квадратичная зависимость времени расчета нарастающего итога от числа элементов в таблице приводит к существенной деградации производительности решений при больших размерах таблиц, особенно в случае файлового варианта информационной базы. Однако на практике проблема не так заметна, так как в большинстве случаев число строк в таблицах относительно невелико. В других случаях можно прибегнуть к постобработке результатов запроса в коде или с использованием функции СКД (Вычислить выражение). Тем не менее, остаются некоторые задачи, в которых необходимо ускорить расчет нарастающего итога непосредственно в запросе.

Для таких особенных задач и предназначен описываемый далее метод. Он не опирается ни на какие технологические ухищрения, а является чисто алгоритмическим. Метод требует, чтобы строки исходной таблицы были пронумерованы. Используется динамическое формирование текста запроса.

Описание метода

Суть предлагаемого метода описывается следующей схемой (Фиг.1), нарисованной для примера расчета нарастающего итога для таблицы из восьми строк. Схема похожа на бабочку, отсюда и название метода - «баттерфляй».

Скема

Первоначально исходная таблица помещается в таблицу «Л1» на левом крыле бабочки. Затем, в соответствии со схемой, производится попарное суммирование соседних строк таблицы «Л1», а результат помещается в таблицу «Л2» из четырех строк. Аналогично по таблице «Л2» строится таблица «Л4», а по «Л4» – таблица «Л8», состоящая по понятным причинам из одной строки. На правом крыле производятся чуть более сложные действия. Единственная строка таблицы «Л8» расщепляется на две строки таблицы «П4». Для этого используется искусственная таблица «Р0», состоящая из двух строк: одна с нулем и другая с единицей. Кроме того (и в этом весь фокус), из верхней строки таблицы «П4» вычитается нижняя строка таблицы «Л4». Это делается затем, чтобы суммы, накопленные в элементе «Л4», не входили в нарастающий итог для строк с меньшим номером. Далее каждая строка таблицы «П4» опять расщепляется на две строки таблицы «П2», а из строк 1, 3 (с нечетными номерами) вычитаются соответствующие строки 2, 4 таблицы «Л2». Ну, и наконец,  строится таблица «П1» расщеплением на две строки каждой строки «П2». При этом и строк 1, 3, 5, 7 вычитаются строки 2, 4, 6, 8 таблицы Л1.

Последовательность получаемых таблиц приведена на фиг.2.

НомерСтроки\Таблица Л1 Л2 Л4 Л8 П4 П2 П1
1 1 2 4 8 4 2 1
2 1 2 4   8 4 2
3 1 2       6 3
4 1 2       8 4
5 1           5
6 1           6
7 1           7
8 1           8

 

Для удобства записи и экономии памяти в запросе таблицы правого крыла «П» сразу же после использования удаляются, а таблицы левого крыла «Л» – переформировываются и тоже удаляются.

Запрос, выполняющий расчеты по приведенной схеме, состоит из повторения одинаковых фрагментов. Вот текст рефрена для левого крыла

ВЫБРАТЬ
	ВЫРАЗИТЬ(Л#1.ё / 2 КАК ЧИСЛО(10, 0)) КАК ё,
	СУММА(Л#1.Сумма) КАК Сумма
ПОМЕСТИТЬ Л#2
ИЗ
	Л#1 КАК Л#1
СГРУППИРОВАТЬ ПО
	ВЫРАЗИТЬ(Л#1.ё / 2 КАК ЧИСЛО(10, 0))

А вот текст рефрена для правого крыла

ВЫБРАТЬ
	2 * Л2.ё - Р0.е КАК ё,
	Л2.Сумма
ПОМЕСТИТЬ П#1
ИЗ
	Л#2 КАК Л2,
	Р0 КАК Р0
ГДЕ
	2 * Л2.ё - Р0.е < = &ЧислоСтрок

ОБЪЕДИНИТЬ

ВЫБРАТЬ
	Л1.ё - 1,
	-Л1.Сумма
ИЗ
	Л#1 КАК Л1
ГДЕ
	(ВЫРАЗИТЬ(Л1.ё / 2 КАК ЧИСЛО(10, 0))) = Л1.ё / 2
;
УНИЧТОЖИТЬ Л#1
;
ВЫБРАТЬ
	П1.ё,
	СУММА(П1.Сумма) КАК Сумма
ПОМЕСТИТЬ Л1
ИЗ
	П#1 КАК П1

СГРУППИРОВАТЬ ПО
	П1.ё
;
УНИЧТОЖИТЬ П#1

Для восьми строк весь запрос имеет вид

ВЫБРАТЬ 0 КАК е ПОМЕСТИТЬ Р0 ОБЪЕДИНИТЬ ВЫБРАТЬ 1;
ВЫБРАТЬ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))ё,Сумма(Сумма)Сумма ПОМЕСТИТЬ Л2 ИЗ Л1 СГРУППИРОВАТЬ ПО ВЫРАЗИТЬ(ё/2 КАК Число(10,0));
ВЫБРАТЬ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))ё,Сумма(Сумма)Сумма ПОМЕСТИТЬ Л4 ИЗ Л2 СГРУППИРОВАТЬ ПО ВЫРАЗИТЬ(ё/2 КАК Число(10,0));
ВЫБРАТЬ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))ё,Сумма(Сумма)Сумма ПОМЕСТИТЬ Л8 ИЗ Л4 СГРУППИРОВАТЬ ПО ВЫРАЗИТЬ(ё/2 КАК Число(10,0));
ВЫБРАТЬ 2*ё-е ё,Сумма ПОМЕСТИТЬ П4 ИЗ Л8,Р0 ГДЕ 2*ё-е< =&ЧислоСтрок ОБЪЕДИНИТЬ ВЫБРАТЬ ё-1,-Сумма ИЗ Л4 ГДЕ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))=ё/2;
УНИЧТОЖИТЬ Л4;ВЫБРАТЬ ё,СУММА(Сумма)Сумма ПОМЕСТИТЬ Л4 ИЗ П4 СГРУППИРОВАТЬ ПО ё;
УНИЧТОЖИТЬ П4;
ВЫБРАТЬ 2*ё-е ё,Сумма ПОМЕСТИТЬ П2 ИЗ Л4,Р0 ГДЕ 2*ё-е< =&ЧислоСтрок ОБЪЕДИНИТЬ ВЫБРАТЬ ё-1,-Сумма ИЗ Л2 ГДЕ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))=ё/2;
УНИЧТОЖИТЬ Л2;
ВЫБРАТЬ ё,СУММА(Сумма)Сумма ПОМЕСТИТЬ Л2 ИЗ П2 СГРУППИРОВАТЬ ПО ё;
УНИЧТОЖИТЬ П2;
ВЫБРАТЬ 2*ё-е ё,Сумма ПОМЕСТИТЬ П1 ИЗ Л2,Р0 ГДЕ 2*ё-е< =&ЧислоСтрок ОБЪЕДИНИТЬ ВЫБРАТЬ ё-1,-Сумма ИЗ Л1 ГДЕ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))=ё/2;
УНИЧТОЖИТЬ Л1;
ВЫБРАТЬ ё,СУММА(Сумма)Сумма ПОМЕСТИТЬ Л1 ИЗ П1 СГРУППИРОВАТЬ ПО ё;
УНИЧТОЖИТЬ П1;

Для произвольного количества строк текст запроса формируется динамически на основе заданного параметра с помощью функции

Функция ТекстЗапросаБаттерфляй_(ЧислоСтрок)
	ТекстЗапроса = "ВЫБРАТЬ 0 КАК е ПОМЕСТИТЬ Р0 ОБЪЕДИНИТЬ ВЫБРАТЬ 1;";
	РефренКрылаЛ = "ВЫБРАТЬ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))ё,Сумма(а)а ПОМЕСТИТЬ Л#2 ИЗ Л#1 СГРУППИРОВАТЬ ПО ВЫРАЗИТЬ(ё/2 КАК Число(10,0));";
	РефренКрылаП = "ВЫБРАТЬ 2*ё-е ё,а ПОМЕСТИТЬ П#1 ИЗ Л#2,Р0 ГДЕ 2*ё-е< =&ЧислоСтрок ОБЪЕДИНИТЬ ВЫБРАТЬ ё-1,-а ИЗ Л#1 ГДЕ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))=ё/2;
				   |УНИЧТОЖИТЬ Л#1;ВЫБРАТЬ ё,СУММА(а)а ПОМЕСТИТЬ Л#1 ИЗ П#1 СГРУППИРОВАТЬ ПО ё; УНИЧТОЖИТЬ П#1;";
	Охват = 1;
	Пока Охват < ЧислоСтрок Цикл
		ТекстЗапроса = ТекстЗапроса + СтрЗаменить(СтрЗаменить(РефренКрылаЛ, "#2", "" + Формат(Охват * 2, "ЧГ=0")), "#1", Формат(Охват, "ЧГ=0"));
		Охват = Охват * 2;
	КонецЦикла;
	Пока Охват > 1 Цикл
		ТекстЗапроса = ТекстЗапроса + СтрЗаменить(СтрЗаменить(РефренКрылаП, "#2", Формат(Охват, "ЧГ=0")), "#1", Формат(Охват / 2, "ЧГ=0"));
		Охват = Охват / 2
	КонецЦикла;
	Возврат ТекстЗапроса
КонецФункции

Нетрудно заметить, что общее число всех выполняемых операций на фиг.1 пропорционально 4,5 N (!!!), где N – число строк в исходной таблице. Это существенно меньше, чем 0,5 N^2. Отсюда и высокая эффективность метода. Притом, что все выполняемые операции делаются с помощью низкозатратной операции группировки.

Для примера приведены таблицы и графики сравнительного анализа времени выполнения расчета нарастающего итога исходной таблицы в зависимости от числа строк в этой таблице для файловой базы (фиг.3)

Фиг.3

и базы на основе MSSQL (фиг.4)

Фиг.4  

Видно, что в файловом варианте стандартный метод проигрывает методу «баттерфляй» уже начиная с 200 строк, а в SQL-варианте – начиная с 2000 строк.

Чтобы можно было самостоятельно проверить приведенные данные, к статье приложена обработка. Она позволяет сформировать таблицу из нужного числа строк и проверить время расчета нарастающего итога разными методами. Метод 0 в обработке – получение нарастающего итога в коде,  метод 1 – с помощью стандартного запроса "Треугольником", метод 2 – запроса «Баттерфляй».

Где это можно использовать на практике?

Фундаментальный характер исходной задачи предполагает довольно широкую область применения предлагаемого метода. Покажем пока только один конкретный пример использования метода: расчет остатков товаров на каждый день (год, квартал, месяц, час, минуту) в запросе.

Для этого добавим к запросу подзапрос получения исходных данных в виде остатков на начало интервала и оборотов по периодам, на которых они были. Кроме того, добавим группировку по номенклатуре к каждому запросу схемы «бабочка», а также итоговый подзапрос вывода результата. Получим следующую функцию для построения текста запроса.

Функция ТекстЗапросаБаттерфляй(ЧислоСтрок)
	ТекстЗапроса = "ВЫБРАТЬ 0 КАК е ПОМЕСТИТЬ Р0 ОБЪЕДИНИТЬ ВЫБРАТЬ 1;";
	РефренКрылаЛ = "ВЫБРАТЬ э,ВЫРАЗИТЬ(ё/2 КАК Число(10,0))ё,Сумма(а)а ПОМЕСТИТЬ Л#2 ИЗ Л#1 СГРУППИРОВАТЬ ПО э,ВЫРАЗИТЬ(ё/2 КАК Число(10,0));";
	РефренКрылаП = "ВЫБРАТЬ э,2*ё-е ё,а ПОМЕСТИТЬ П#1 ИЗ Л#2,Р0 ГДЕ 2*ё-е< =&ЧислоСтрок ОБЪЕДИНИТЬ ВЫБРАТЬ э,ё-1,-а ИЗ Л#1 ГДЕ ВЫРАЗИТЬ(ё/2 КАК Число(10,0))=ё/2;
				   |УНИЧТОЖИТЬ Л#1;ВЫБРАТЬ э,ё,СУММА(а)а ПОМЕСТИТЬ Л#1 ИЗ П#1 СГРУППИРОВАТЬ ПО э,ё; УНИЧТОЖИТЬ П#1;";
	Охват = 1;
	Пока Охват < ЧислоСтрок Цикл
		ТекстЗапроса = ТекстЗапроса + СтрЗаменить(СтрЗаменить(РефренКрылаЛ, "#2", "" + Формат(Охват * 2, "ЧГ=0")), "#1", Формат(Охват, "ЧГ=0"));
		Охват = Охват * 2;
	КонецЦикла;
	Пока Охват > 1 Цикл
		ТекстЗапроса = ТекстЗапроса + СтрЗаменить(СтрЗаменить(РефренКрылаП, "#2", Формат(Охват, "ЧГ=0")), "#1", Формат(Охват / 2, "ЧГ=0"));
		Охват = Охват / 2
	КонецЦикла;
	Возврат ТекстЗапроса
КонецФункции

Результат запроса подставляется вместо ";" в запрос для СКД, получающий исходные данные и выводящий результат. Он имеет следующий вид

ВЫБРАТЬ
	1 КАК ё,
	Остатки.Номенклатура КАК э,
	Остатки.КоличествоОстаток КАК а
ПОМЕСТИТЬ Л1
ИЗ
	РегистрНакопления.ТоварыНаСкладах.Остатки(&НачалоПериода, ) КАК Остатки

ОБЪЕДИНИТЬ ВСЕ

ВЫБРАТЬ
	РАЗНОСТЬДАТ(&НачалоПериода, Обороты.Период, ДЕНЬ) + 2,
	Обороты.Номенклатура,
	Обороты.КоличествоОборот
ИЗ
	РегистрНакопления.ТоварыНаСкладах.Обороты(&НачалоПериода, &КонецПериода, ДЕНЬ, ) КАК Обороты
;
ВЫБРАТЬ
	ДОБАВИТЬКДАТЕ(&НачалоПериода, ДЕНЬ, Л1.ё - 1) КАК Период,
	Л1.э КАК Номенклатура,
	Л1.а КАК Остаток
ИЗ
	Л1 КАК Л1
ГДЕ
	ДОБАВИТЬКДАТЕ(&НачалоПериода, ДЕНЬ, Л1.ё - 1) < = &КонецПериода

Слово "День" при компоновке результата заменяется на интересующий нас период.

Заметьте, что этим запросом чудесным образом получаются остатки и на даты периодов, в которых не было движений, хотя в исходных данных этих периодов не было! Нужно отметить, что полученный запрос не требует многократного обращения к виртуальному регистру остатков для дат, на которые итоги не хранятся, а вычисляются.  Указанным недостатком страдает подавляющее большинство решений, размещенных на Инфостарте /**/. Поэтому запрос крайне эффективен в плане времени выполнения и без труда работает на мелких периодах типа часа и минуты, на которых другие решения крайне не эффективны.

К статье приложена обработка, содержащая данное решение.

Вторым примером может быть задача агрегатной конкатенации строк в запросе [Агрегатная конкатенация строк в запросе - сложно, но не невозможно]: на одном из этапов там требуется определить порядковый номер отдельного символа в общей последовательности. При определении номера стандартным методом эта операция выполняется долго, а если применить схему "баттерфляй", метод агрегатной конкатенации сможет соперничать по быстродействию с внезапросными способами, то есть станет достаточно практичным (хотя и еще более громоздким).
 
Третьим примером может быть задача последовательной нумерации документов по времени. На входе при этом будет таблица с номером секунды документа, а на выходе - порядковый номер документа в последовательности.
Другие возможные примеры применения метода пока не готовы для демонстрации или не разработаны или еще неизвестны.

Заключение

В заключение необходимо еще раз обратить внимание и подчеркнуть тот факт, что найденный метод получения нарастающего итога в запросе имеет минимально возможную трудоемкость О(N) /***/. То есть трудоемкость метода фактически (с точностью до коэффициента) равна трудоемкости получения нарастающих итогов  в коде. Ну и, кроме того, данное решение является чисто алгоритмическим. Оно не привязано жестко к особенностям языка запросов 1С. Поэтому с таким же успехом может использоваться и при решении задачи получения нарастающих итогов, например, непосредственно на языке T-SQL.   

Ну и совсем общие выводы заключаются в том, что данная задача и ее решение учат тому, что никогда не следует терять пионерского оптимизма: хотя эпоха великих алгоритмических открытий в целом вроде бы кончилась, но в нашей предметной области еще остались места для исследований и новых интересных находок.

Примечания

*/  Интересно, что вычисление нарастающего итога по сути – это задача численного интегрирования функции, заданной исходной таблицей.

**/  Довольно часто получение остатков на каждый день используется в задаче определения среднедневного остатка, хотя этот показатель определяются гораздо проще непосредственно через обороты как показано в статье [Расчет средних по периодам в запросе - это элементарно!]

***/ Тем, кому предложенный метод кажется слишком сложным, можно порекомендовать ознакомиться с методами построения, например, суффиксного массива, имеющих линейную трудоемкость О(N) [http://habrahabr.ru/post/115346/]. Тогда станет понятно, что такое по настоящему сложные методы достижения линейной трудоемкости.

Приложение

На тему нарастающего итога в запросах на языке платформы «1С:Предприятие» на Инфостарте сломано немало копий:

Отчет по просроченной задолженности/задолженность по интервалам (УПП УТ 8.1, СК

Нарастающие итоги в запросе и методы ускорения его выполнения

SubSys: Просроченная задолженность по срокам (режим - по договорам в целом ФИФО)

Подведем итоги. Нарастающие

Запрос. Нарастающий итог. Как «я» его понимаю.

Запрос. Нарастающий итог. Как «я» его НЕ понимаю (вторая часть).

БП1.6.Просроченная задолженность по 62 сч. Продолжение разго

ФИФО для любопытных

Запрос. Нарастающий итог. Как «я» его НЕ понимаю (третья часть).

Использование нарастающих итогов в партионном учете и не только

Нарастающие итоги. Объединение двух таблиц с нарастающими итогами

нарастающий итог запрос быстрый метод

См. также

Infostart Toolkit: Инструменты разработчика 1С 8.3 на управляемых формах

Инструментарий разработчика Роли и права Запросы СКД Платформа 1С v8.3 Управляемые формы Запросы Система компоновки данных Конфигурации 1cv8 Платные (руб)

Набор инструментов программиста и специалиста 1С для всех конфигураций на управляемых формах. В состав входят инструменты: Консоль запросов, Консоль СКД, Консоль кода, Редактор объекта, Анализ прав доступа, Метаданные, Поиск ссылок, Сравнение объектов, Все функции, Подписки на события и др. Редактор запросов и кода с раскраской и контекстной подсказкой. Доработанный конструктор запросов тонкого клиента. Продукт хорошо оптимизирован и обладает самым широким функционалом среди всех инструментов, представленных на рынке.

13000 руб.

02.09.2020    119917    656    389    

701

Для чего используют конструкцию запроса "ГДЕ ЛОЖЬ" в СКД на примере конфигурации 1С:ERP

Запросы СКД Платформа 1С v8.3 Запросы Система компоновки данных 1С:ERP Управление предприятием 2 Бесплатно (free)

В типовых конфигурациях разработчики компании 1С иногда используют в отчетах, построенных на СКД, такую конструкцию, как "ГДЕ ЛОЖЬ". Такая конструкция говорит о том, что данные в запросе не будут получены совсем. Для чего же нужен тогда запрос?

13.02.2024    5620    KawaNoNeko    23    

23

Набор-объект для СКД по тексту или запросу

Запросы СКД Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Абонемент ($m)

Есть список полей в виде текста, или запрос - закидываем в набор СКД.

1 стартмани

31.01.2024    1964    2    Yashazz    0    

29

Запрос 1С copilot

Инструментарий разработчика Запросы Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Абонемент ($m)

Пишем на человеческом языке, что нам надо, и получаем текст запроса на языке 1С. Используются большие языковые модели (LLM GPT) от OpenAI или Яндекс на выбор.

5 стартмани

15.01.2024    6091    29    mkalimulin    23    

48

PrintWizard: поддержка представлений ЗУП в конструкторе

Инструментарий разработчика Запросы Платформа 1С v8.3 Бесплатно (free)

Одной из интересных задач, стоящих в процессе разработки, была поддержка механизма представлений в ЗУП. Но не просто возможность исполнения запросов с ними. Основная проблема была в том, чтобы с ними было удобно работать, а именно: создавать, модифицировать и отлаживать. Кратко о том, что в итоге получилось...

14.12.2023    1714    vandalsvq    7    

28

Объектная модель запроса "Схема запроса" 2

Запросы Платформа 1С v8.3 Запросы Конфигурации 1cv8 Бесплатно (free)

Далеко уже не новый тип данных "Схема запроса". Статья о том, как использовать его "попроще". Примеры создания текста запроса с нуля и изменение имеющегося запроса.

06.12.2023    5283    user1923546    26    

43

Начните уже использовать хранилище запросов

HighLoad оптимизация Запросы

Очень немногие из тех, кто занимается поддержкой MS SQL, работают с хранилищем запросов. А ведь хранилище запросов – это очень удобный, мощный и, главное, бесплатный инструмент, позволяющий быстро найти и локализовать проблему производительности и потребления ресурсов запросами. В статье расскажем о том, как использовать хранилище запросов в MS SQL и какие плюсы и минусы у него есть.

11.10.2023    15956    skovpin_sa    14    

98
Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. kapustinag 20.09.13 20:19 Сейчас в теме
Да, это сильно. Снимаю шляпу.
При первом взгляде на текст запроса подумал, что выигрыш по времени начнет проявляться позже, так как стандартное решение содержит только операции сложения, а полученное Вами - много умножений, делений, вычитаний - то есть операций более медленных. Но с измерениями не поспоришь.
2. Yashazz 4707 21.09.13 22:20 Сейчас в теме
Ильдарович, а ты замерял в сравнении со штатными функциями СКД, которые теперь позволяют легко делать подобное? С "ВычислитьВыражение" и прочими? Что быстрее и оптимальнее по ресурсоёмкости?
4. ildarovich 7846 23.09.13 10:02 Сейчас в теме
(2) Нет, я этого не делал. "Нельзя объять необъятное" - пока сосредоточился на там, что можно сделать в самом запросе. С точки зрения быстроты, в коде, в отличии от запроса, нет проблемы обращения к предыдущим значениям ряда, поэтому там рассмотренная задача не представляет сложностей и решается быстро (метод "0" в обработке). Рассуждая логически, в СКД должно быть также, хотя все нужно проверять. С точки зрения оптимальности тут вообще нельзя ничего говорить, не определив всех условий конкретной практической задачи и не рассмотрев еще и разных последовательностей и комбинаций приемов, которые, возможно, нужно будет еще придумывать.
3. Поручик 4670 22.09.13 01:53 Сейчас в теме
Ужас. Статьи автора всегда читаю, как фантастику. Как в своё время читал описание Ады или Модулы-2. Кто в теме, тот в курсе.
art.prm; spezc; корум; ixijixi; +4 Ответить
47. spezc 781 06.04.17 04:53 Сейчас в теме
(3) Согласен, Сергей как из другой вселенной)))
5. foliage 23.09.13 10:27 Сейчас в теме
Прочтение статей автора не оставляет сомнений в его же "совсем общем" выводе.
6. Lemkus 23.09.13 12:02 Сейчас в теме
При нечетном количестве строк вроде не работает.
7. ildarovich 7846 23.09.13 12:59 Сейчас в теме
(6) Почему Вы так решили? - Скачайте и проверьте сами. - Метод работает на любом количестве строк(см. скриншот).
Прикрепленные файлы:
8. Lemkus 23.09.13 13:07 Сейчас в теме
(7) Пардон, невнимательно прошел по алгоритму
9. kuzev 47 23.09.13 17:02 Сейчас в теме
Занимался этой задачей год назад. Реализовал расчет простым запросом, как написано в начале статьи. Сравнивал только не номера строк, а даты. Данный прием потребовался для моделирования (расчета остатка на дату с учетом начального или конечного остатка, приходов и расходов).
ildarovich, запросы наше всё =)
12. ildarovich 7846 23.09.13 20:48 Сейчас в теме
(10) Ссылка относится к СКД. В статье речь идет о запросе. То есть результат получается не постобработкой результатов запроса в оперативной памяти в коде или СКД, а внутри запроса и с ним еще можно много чего после этого сделать. Интерес был в том, чтобы доказать, что ограничения реляционной модели манипулирования данными не такие уж и узкие, чтобы отказываться от нее при некоторых затруднениях.
14. kereo 57 23.09.13 21:09 Сейчас в теме
(12) это скорее заметка для себя =)
15. hogik 443 24.09.13 03:22 Сейчас в теме
(12)
"... ограничения реляционной модели манипулирования данными не такие уж и узкие, чтобы отказываться от нее при некоторых затруднениях."(с)
Сергей.
От неё (модели) не надо отказываться. Надо отказаться от языка "манипулирования данными"(с) в тех алгоритмах, где для его (языка) применения требуется голова Вашего уровня...
18. ildarovich 7846 25.09.13 01:39 Сейчас в теме
(15) Владимир! Я внимательно читаю Ваши комментарии. Но у меня есть своё, отличное от Вашего мнение на тему "реляционное vs навигационное" манипулирование данными. Мне представляется, что на данный момент правильность выбора концепции, заложенной в платформе, подтверждена практикой. Декларативный SQL-подобный язык запросов для извлечения данных, скриптовый процедурный язык для интерфейса и склейки различных механизмов, СКД - для представления (только ли?) данных пользователю. Брать за основу непроверенные временем технологии было бы и сейчас и тогда безответственно и недальновидно. А так, посмотрите: MSSQL, Postgre, DB2, Oracle. С чем другим мы бы сейчас работали, прими 1С в свое время другое решение? Взять проприетарную и очень проблемную Cashe и сложить все яйца в одну корзину? Придумать нечто совсем свое? Бежать впереди паровоза по непроторенному пути? Это непозволительная роскошь для фирмы, опирающейся на собственные силы. Возьмите ё-мобиль. Гораздо более хорошо исследованная и предсказуемая область, серьезные финансовые ресурсы. А результат тем не менее все еще не получен. Мы готовы ждать так долго в области информационных технологий?
Krasnyj; monkbest; hogik; +3 Ответить
11. Ёпрст 1063 23.09.13 17:55 Сейчас в теме
вот-вот, ключевое понятие - ид чего либо, например строки.
Не всегда это есть, к сожалению в обычных запросах. А спецом "нумеровать" результат - лишнее самосоединение.
Поентому, выигрыш решения..сомнительный.
13. ildarovich 7846 23.09.13 21:01 Сейчас в теме
(11) Да, нумерация нужна, но ее можно получить тем же приемом БЕЗ самосоединения.
Я не предлагаю этот прием как универсальный рецепт на все случаи жизни. В статье четко говорится, что при обработке в коде и в СКД затруднений с получением нарастающих итогов нет. Также говорится о том, что выигрыш начинается с больших значений числа строк - говорится каких. Кстати, есть более короткая версия того-же запроса, которая в файловом варианте работает на 30% быстрее (с использованием соединения, а не группировки в правом крыле). То есть выигрыш начинается еще с меньших цифр, чем сейчас указано.
16. ilov_boris 163 24.09.13 22:48 Сейчас в теме
"Где это можно использовать на практике?"
Нигде. Как умственное упражнение полезно. Но за использование подобного в продакшене нужно по рукам бить.
17. ildarovich 7846 25.09.13 00:57 Сейчас в теме
20. ilov_boris 163 25.09.13 09:51 Сейчас в теме
(17) это проще и нагляднее делать кодом. И кроме того есть регистры накопления для этих целей.
21. kereo 57 25.09.13 10:14 Сейчас в теме
(16) ilov_boris, задача из жизни сформировать отчет, где идет оценка склада по средней стоимости склада с нарастающим итогом с указаной даты и еще куча других цифр.
22. ildarovich 7846 25.09.13 10:16 Сейчас в теме
(16) Вот несколько практических задач:
1) Получить список менеджеров, установивших цены, которые в процентах максимально отличались от своих предыдущих значений;
2) Получить список номенклатурных позиций, отличающихся максимальной волатильностью цен, подсчитанной как частота изменений цен, больших чем среднее значение изменений;
3) Определить чек, в котором находится 1000-ая единица проданного товара (такие чеки будут участвовать в розыгрыше призов);
4) Пересчитать скидки по интервальной накопительной системе скидок при возврате товара;
5) Рассчитать выплаты по кредитной линии, если моменты выдачи и возврата денежных средств произвольны;
6) Рассчитать стоимость овердрафта по пластиковой карте в зависимости от его суммы и времени;
7) Рассчитать стоимость ответственного хранения (для сложных условий);
8) Провести пакетный расчет стоимости списания по скользящему среднему.
Все эти задачи имеют общее свойство - решаются с использованием тэта-соединений в запросах. То есть их трудоемкость определяется квадратичной зависимостью и может быть уменьшена до линейной применением предлагаемого приема.
Восьмой; корум; zaxarovsky; +3 Ответить
23. ilov_boris 163 25.09.13 10:27 Сейчас в теме
(22) "Все эти задачи имеют общее свойство -" решаются императивно.
SQL не для вычислений предназначен.
MrFlanker; hogik; +2 1 Ответить
24. kereo 57 25.09.13 14:04 Сейчас в теме
(23) ilov_boris, в налоговых инспекциях стоит система ЭОД(Электронная обработка данных), в которой очень много расчетов выполняет именно SQL, через запуск хранимых процедур, в т.ч. налогов.
25. hogik 443 25.09.13 18:33 Сейчас в теме
(24)
"много расчетов выполняет именно SQL, через запуск хранимых процедур"(с)

Сильный аргумент. :-) :-) :-)

Вот тут хорошо и кратко написано:

"Храни́мая процеду́ра — ... у них могут быть входные и выходные параметры и локальные переменные, в них могут производиться числовые вычисления и операции над символьными данными, результаты которых могут присваиваться переменным и параметрам. ... Кроме того, в хранимых процедурах возможны циклы и ветвления, то есть в них могут использоваться инструкции управления процессом исполнения."(с)
27. kereo 57 25.09.13 19:49 Сейчас в теме
(25), (26) hogik, Аргумент, может быть и не очень хороший.
Поясню, что я хотел этим сказать. Объем данных там очень большой, который используется для расчетов, в том числе и нарастающие итоги там тоже есть (к примеру регрессивная шкала начисления ЕСН или по новому страховых взносов). А пользуются этой системой по все России. Т. е. расчеты на SQL очень большого объема и применяемые не в одной и не 2-х организациях.

SQL это стандарт языка запросов. А хранимые процедуры написаны разве не на SQL?
Храни́мая процеду́ра — объект базы данных, представляющий собой набор SQL-инструкций

А вот, что написано в wikipedia на этот счет:
Со временем SQL усложнился — обогатился новыми конструкциями, обеспечил возможность описания и управления новыми хранимыми объектами (например, индексы, представления, триггеры и хранимые процедуры) — и стал приобретать черты, свойственные языкам программирования.
28. hogik 443 25.09.13 20:03 Сейчас в теме
(27)
"Аргумент, может быть и не очень хороший."(с)
Игорь (kereo).
Нет. Аргумент очень хороший. :-)
Т.к. подтверждает позицию/мнение оппонента.
26. hogik 443 25.09.13 19:12 Сейчас в теме
(24)
А чего Вы называете этими тремя буквами?
Многие называют SQL-ем всё, что называется СУБД. :-)
32. zaxarovsky 111 18.10.13 08:50 Сейчас в теме
19. hogik 443 25.09.13 02:01 Сейчас в теме
29. sapervodichka 6690 25.09.13 22:10 Сейчас в теме
это просто Ужос!!! )))) (+1 поставил)
30. RailMen 823 30.09.13 01:40 Сейчас в теме
31. Silenser 589 30.09.13 14:14 Сейчас в теме
Статьи по запросам у автора очень интересны. Но я все же поддержу тех, кто считает, что подобные вычисления нужно разделять во времени, а не делать сиюминутно. Таблица итогов по периодам выглядит более прозрачно и понятнее, нежели динамически формируемый запрос. Возможно, это мои личные предпочтения, но динамически формируемые запросы я довольно сильно не люблю, т.к. крайне сложно читать логику и, зачастую, без отладчика разобрать мысль автора (не данного автора, а некого абстрактного программиста) крайне сложно.
Yakud3a; TeMochkiN; tormozit; корум; lunjio; It-developer; denis_aka_wolf; 3762515; MrFlanker; Valet; +10 Ответить
33. MrFlanker 219 18.01.14 18:22 Сейчас в теме
Публикация очень похожа на студенческую работу:... сделать понятные, простые вещи неудобным способом и назвать по своему.
34. Evil Beaver 8100 24.01.14 11:11 Сейчас в теме
35. ildarovich 7846 09.02.14 13:45 Сейчас в теме
В отчете "Возраст" остатков номенклатуры показан один из вариантов практического применения описанного метода.
36. speshuric 1326 19.02.14 13:21 Сейчас в теме
1. Не рассмотрен нарастающий итог с группировками. Сам по себе нарастающий итог - достаточно редкая задача, почти всегда интересует нарастающий итог в каком-то разрезе (например, контрагентов, товаров и т.п.). Как только появляются группировки, то возникает важная оговорка, что даже ресурсоёмкость начального "наивного" запроса растет лишь как квадрат самой толстой группы. А при грамотном разбиении на группы это уже не так страшно.
Тем более, если есть какие-то вспомогательные системы (например, хранимые остатки, как в РН), то размер максимальной группы не растёт так быстро.

2. Не совсем понял откуда оценка 4,5*N. Если из картинки, то там 4,5 для 8 записей и очевидно, что коэффициент 4,5 не сохранится для 16 записей. Там навскидку должно получаться что-то типа N*log(N). Но и эта оценка только количества операций суммирования: нет, например, оценки стоимости построения запроса, а в 1С в том виде, как вы написали, она не линейна от количества кусков.

3. В СУБД очень часто самым дефицитным ресурсом являются не процессоры, а количество дисковых операций и память. Да, для примитивной ситуации, когда есть только колонка сортировки и суммы, упереться в диски и память не получится. Но в реальной ситуации только кортеж группировки будет тянуть байт на 100-300. Тогда у вас tempdb захлебнётся (по памяти или дискам, они в данном случае взаимозаменяемы), ведь на суммирование нужно держать объём больше начального объёма таблицы (одно левое крыло уже больше). То есть на таблицах 10 и более ГБ батерфляй рискует грустно сдохнуть. "Наивный", правда, тоже сдохнет, но если не будет спасения в виде группировок.

4. Ну и если вы уж так упираетесь в нарастающий итог, то в SQL Server 2012 появились средства для их вычисления "одним запросом": MSDN: Пример В.Нахождение скользящей средней и кумулятивной суммы. Понятно, что это в 1С-ные запросы не попадает, но вариант точно быстрее и незатратный по памяти/дискам. Таким образом "непосредственно на языке T-SQL" ваше решение не следует использовать.

5. У вас колонка Ё не индексирована. Это влияет на план выполнения запроса. Не в десятки раз, конечно, но влияет.
37. ildarovich 7846 19.02.14 15:12 Сейчас в теме
(36) 1) Нарастающий итог с группировками не рассмотрен только для того, чтобы не усложнять изложение. Но это не является проблемой - в обработке, приложенной к статье и в отчете "Возраст" остатков номенклатуры, где также применяется данный метод, используются группировки - запрос становится лишь чуточку сложнее. Линейной зависимости величины затрат (времени, памяти) метода от числа строк группировки не нарушают.
2) У меня тоже сначала в голове крутилось N*log(N). Но на самом деле так было бы, если бы крылья бабочки имели равную ширину и не сужались бы быстро к центру (тогда бы это была и не бабочка). А поскольку крылья сужаются также как 1/log(N), то в итоге получаются ЛИНЕЙНАЯ ЗАВИСИМОСТЬ. Ведь сумма ряда 1 + 1/2 + 1/4 + 1/8 + 1/16 + ... = 2 (двум!). С левой стороны 2N, с правой стороны 2N, ну и еще на вычитание 0,5N. Так и получается 4,5N. Для 8-ми, 16-ти и сколько угодного исходного количества записей.
3) Квадратики на схеме обозначают не только операции процессора (суммирование), но и чтение, запись, хранение. Получается, что по сравнением с простой обработкой таблицы (например, добавлением единицы ко всем записям), потребуется в 4,5 раза больше ресурсов (процесссора, чтения, записи, места в tempdb). Это не в 20 и не в 100 раз больше! То есть для большой ширины кортежа потребуется еще 3,5 этой ширины на работу метода - не думаю, что это заставит сдохнуть сервер.
4) Про возможности SQL Server 2012 я знаю. В начале статьи есть ссылка на исследование именно этой новой возможности. Но, согласитесь, что алгоритмическая возможность фундаментальнее. Мы тут остаемся в рамках реляционного подхода, строго следуя заветам К. Дж. Дейта [SQL и реляционная теория. Как грамотно писать код на SQL].
-
Действительными ограничениями метода я считаю отсутствие во многих задачах исходной порядковой нумерации строк, нарастающий итог которых требуется получить. Кроме того, сейчас появилась возможность быстро рассчитывать нарастающий итог вне запроса (в СКД), что также сужает (хотя это вопрос все еще открытый - доказательств пока нет) область применения метода.
утюгчеловек; speshuric; +2 Ответить
38. speshuric 1326 19.02.14 17:57 Сейчас в теме
(37)
По оценке. Да, ок, я понял почему линейно зависит, хотя и не 4,5. Левое крыло 2N, действительно, а правое у меня получается заметно тяжелее. Вроде бы 4N (за счет схемы Р0*Л8+Л4 в П4, П4 в Л4), но нужно проверить расчеты. Но линейно.

По группировкам. Получается, что если в одной группе примерно до 100 элементов, то проще обойтись треугольным запросом. Если больше - до 1000, то надо проверять. Дальше - скорее всего бабочка обгонит.

По памяти. Для итогового буфера запроса один фиг понадобится N записей. Так что, хотя в процессе выполнения бабочка и прожорливее, но на финише по памяти тоже всё относительно ок.

По тому что "фундаментальнее" я не соглашусь. В реляционной теории на самом деле много еще неустоявшихся моментов, а уж того в чем "Р"СУБД вовсе даже и не "Р" - пруд пруди. Собственнно Дейт и Дарвен в третьем манифесте (относительно связки с ОО) и других трудах еще 15 лет назад это описывали.
39. ildarovich 7846 21.02.14 09:25 Сейчас в теме
(38) В целом согласен с Вашими оценками - Вы уловили самую суть.
Хотел было поспорить по-поводу "фундаментальнее", но теперь передумал. Будет напоминать спор Шелдона и Леонарда (из известногоо сериала) по-поводу того, какая физика круче: теоретическая или экспериментальная. Результат предсказуем - каждый останется при своем мнении.
40. ildarovich 7846 21.02.14 13:02 Сейчас в теме
(38)(39) Все же не удержусь, чтобы привести аргументы в поддержку «фундаментальности» решения.
По сравнению с новыми оконными функциями сервера MS SQL 2012 метод оперирует более высокими уровнями абстракции, то есть слабо зависит от программной и аппаратной платформы, а может работать и без компьютера вообще!
Представьте себе, что вы стоите в многотысячной очереди в Храм, например. Вас, как и всех в очереди, конечно, интересует, когда Вы туда попадете. Попросите людей в очереди оценить время своей молитвы (или, как сейчас говорят, «попытки связаться с разработчиком») , прибавить его ко времени, записанного на листочке впереди стоящим человеком и передать этот листок по очереди дальше. Если оценить, что одному человеку на это потребуется примерно 20 секунд, то для 10 тысяч человек в очереди потребуется примерно 55 минут. Если же применить «бабочку» - расположить рядом еще 10 тысяч «счетчиков» в виде бинарного дерева (крыла бабочки), то результат будет получен уже примерно через 10 минут – в 5,5 раз быстрее. Для 100 тысяч человек получится уже 555 / 12 минут – в 50 раз быстрее (приблизительно). То есть ускоряется даже не «треугольник», а простой линейный подсчет. «Бабочка» дает возможность распараллеливания расчета нарастающего итога!
Так что стоит задуматься (не нам) над тем: - Не применить ли «бабочку» при реализации самих оконных функций в MS SQL для распараллеливания этих операций? А всякие модные сейчас распределенные вычисления и СУБД, Биг-Даты и тому подобное?
Вот, что я имел в виду, говоря, что данное решение более общее (фундаментальное).
41. speshuric 1326 21.02.14 17:15 Сейчас в теме
(40) Стоп-стоп.
1. Я не буду стоять в Храм. Давайте это лучше будет очередь улететь на Марс :)
2. 20 секунд и 10000 человек последовательно передают данные - это 200000 секунд. Это 55 часов. Не минут.
3. Левое крыло, если все будут действовать параллельно, просчитается за 16 итераций. Правое - тоже логарифм, но в уме что-то не прикину будет оверхэд или не будет. Пусть даже и не будет - всё равно 32 итерации 32*20 - 640 секунд. Отличный, кстати, результат.
4. Но если представить себе всю эту тусовку, то станет понятно, что управлять такой распараллеленной операцией будет ОЧЕНЬ тяжело. И возникнут оверхэды на синхронизацию, хождение и управление. Но, кстати, в час-полтора будет уложиться всё равно реально.

Это хорошая демонстрация бесконечного распараллеливания в "последовательной" задаче. И, да, он во всяких хадупах и т.п. проканает, наверное (хотя сходу у меня в голове этот алгоритм в мэп-редьюс не укладывается).
И я не спорю, что это эффективно и круто.
Я же функцию SUM-ORDER BY считаю потому более фундаментальной, что она не декларирует как считать. А считать она может как угодно (той же бабочкой). Собственно, мне кажется, это и была одна из главных идей РСУБД - отделить задачу от реализации.
HystriX; ildarovich; +2 Ответить
42. Sergey.Noskov 1375 16.07.14 13:50 Сейчас в теме
В давние времена, когда брался за решение сложной задачи именно с мыслями "Какая интересная задачка, но мне любой запрос по плечу!" то приходилось ваять мегабайты строк запросов.
Потом, когда заинтересовался спецификой крупных внедрений и областью задач уровня 1С:Эксперт, прочитал просто гениальную фразу на диске ИТС: "Регистр должен быть самодостаточным" и образ мышления развернулся в сторону "Какая интересная задачка, надо хорошенько продумать архитектуру".
Понимаю, что нарастающий итог - задача не тривиальная, но и тут можно разработать архитектурное решение, которое покроет 90% сценариев формирования отчета при котором запрос будет до безобразия примитивным.
43. ildarovich 7846 17.07.14 12:14 Сейчас в теме
(42) serno, все это абстрактная философия.В конкретных случаях она может не помочь.
нарастающий итог - задача не тривиальная, но и тут можно разработать архитектурное решение, которое покроет 90% сценариев формирования отчета при котором запрос будет до безобразия примитивным
Конечно, нужно разрабатывать эти архитектурные решения и сравнивать затраты на поддержание в актуальном состоянии вспомогательных структур данных и выгоды в виде сокращения времени выполнения запроса. Однако, во-первых, здесь нет уверенности, что "кубиков", которые есть в 1С всегда будет достаточно для построения любых необходимых структур данных. Во-вторых, иногда находятся алгоритмические решения, которые дают очень большие выигрыши во времени без всяких вспомогательных структур данных. Один из примеров приведен в статье "Неоплаченные долги при распределении оплаты по правилу ФИФО одним запросом и намного быстрее, чем Вы думали". Вот такие решения я и ищу.
44. danila_inf 22.08.14 17:50 Сейчас в теме
Как решение достаточно оригинально.
Оценить можно с разных сторон.
И с точки зрения сборки запроса(- неудобно)
и по времени выполнения (+ быстрее)
Для меня лично ограничений больше чем возможностей.
В моей практике не было запросов(работающих на реальном предприятии), с нарастающим итогом выполняющихся очень долго. Так что следующий запрос с нарастающим итогом напишу по старинке))
45. ildarovich 7846 14.05.15 13:31 Сейчас в теме
Вот в этой статье http://habrahabr.ru/company/epam_systems/blog/247805/ говорится о том, что очень похожий метод применяется в параллельных алгоритмах "свертки", выполняемых графической подсистемой CUDA. Приведена очень похожая картинка. Метод назван Blelloch scan. Говорится о его высокой эффективности.
Похоже, что нарастающий итог - это задача prefix sum.
46. ildarovich 7846 13.07.16 13:45 Сейчас в теме
По тому же принципу можно считать нарастающий итог не сумм, а произведений. Тоже будет быстро.
Оставьте свое сообщение