gifts2017

Расчет вероятностей запросом

Опубликовал Сергей (ildarovich) в раздел Программирование - Практика программирования

Предлагается метод расчета вероятностей сложных событий с использованием языка запросов. Метод иллюстрируется примерами решения трех задач: расчет вероятности сдачи теста «1С: Профессионал», расчет вероятности отказа дискового массива RAID-10, расчет вероятности критического превышения сроков выполнения проекта. Все описанные решения можно протестировать с помощью прилагаемого отчета.

Введение

Вероятности окружают нас на каждом шагу и часто нужно бывает уметь их правильно оценивать. Покажем, как это сделать на нескольких примерах, стараясь не углубляться в теорию. В качестве инструмента будем использовать язык запросов, который, как оказалось,  позволяет выполнить нужные вычисления и быстро и просто.

В основе предлагаемого решения лежит запрос – комбинатор,  который (как было показано в исходной статье) формирует таблицу всех возможных сочетаний произвольного набора свойств. Если добавить к исходным данным запроса столбец вероятностей, с которыми свойства принимают соответствующие значения, сделать предположения о независимости свойств и совсем немного усложнить запрос-комбинатор, то на выходе можно получить таблицу сочетаний свойств, дополненную вероятностями каждого сочетания. Далее, в зависимости от задачи, для нахождения искомой вероятности нужно просуммировать  вероятности сочетаний, соответствующих условиям заданного события.

Общая часть

Пусть, например, имеется система хранения информации, состоящая из двух жестких дисков. Состояние этой системы (в смысле надежности) можно охарактеризовать двумя свойствами: работоспособность диска 0 и работоспособность диска 1. Свойство работоспособности может принимать два значения, которые для удобства можно обозначить числами: 1 – диск работоспособен, 0 – диск отказал. Таким образом, получим таблицу, в которой перечислены свойства и их значения.

Свойство

Значение

Работоспособность диска 0

1 - работоспособен

Работоспособность диска 0

0 - отказал

Работоспособность диска 1

1 - работоспособен

Работоспособность диска 1

0 - отказал

   

Запрос-комбинатор позволяет получить из этой таблицы таблицу всех возможных сочетаний следующего вида

Вариант

Свойство

Значение

0

Работоспособность диска 0

1 - работоспособен

Работоспособность диска 1

1 - работоспособен

1

Работоспособность диска 0

0 - отказал

Работоспособность диска 1

1 - работоспособен

2

Работоспособность диска 0

1 - работоспособен

Работоспособность диска 1

0 - отказал

3

Работоспособность диска 0

0 - отказал

Работоспособность диска 1

0 - отказал

 

Если дополнить  исходную таблицу вероятностями, то получим таблицу

Свойство

Значение

Вероятность

Работоспособность диска 0

1 - работоспособен

p0

Работоспособность диска 0

0 - отказал

q0 = 1 - p0

Работоспособность диска 1

1 - работоспособен

p1

Работоспособность диска 1

0 - отказал

q1 = 1 – p1

 

По этой таблице можно получить  таблицу вариантов с их вероятностями

Вариант

Вероятность

Свойство

Значение

0

p0 * p1

Работоспособность диска 0

1 - работоспособен

Работоспособность диска 1

1 - работоспособен

1

q0 * p1

Работоспособность диска 0

0 - отказал

Работоспособность диска 1

1 - работоспособен

2

p0 * q1

Работоспособность диска 0

1 - работоспособен

Работоспособность диска 1

0 - отказал

3

q0 * q1

Работоспособность диска 0

0 - отказал

Работоспособность диска 1

0 - отказал

 

Если диски в массиве объединены по схеме RAID-0 (зеркало), то вероятность отказа будет суммой вероятностей в строчках 1, 2 и 3, где отказал хотя бы один диск. А если диски в массиве объединены по схеме RAID-1, то вероятность отказа будет составляться строчкой 3, соответствующей варианту отказа двух дисков.

Обобщая приведенный пример, получим предлагаемый метод расчета вероятностей, который  заключается в том, чтобы:

1)      Заполнить по условиям задачи таблицу свойств, значений и их вероятностей;

2)      Найти запросом таблицу вероятностей сочетаний значений свойств;

3)      Просуммировать  вероятности строк, соответствующих заданному событию.

Запросы для выполнения пункта 2) будут одинаковыми при решении всех различных задач. Они состоят из одного запроса, нумерующего свойства и значения внутри свойств. Вот текст этого запроса:

ВЫБРАТЬ
	ВЫРАЗИТЬ(КОЛИЧЕСТВО(РАЗЛИЧНЫЕ Слева.Свойство) / 2 КАК ЧИСЛО(10, 0)) КАК НомерПары,
	КОЛИЧЕСТВО(РАЗЛИЧНЫЕ Слева.Свойство) КАК Измерение,
	КОЛИЧЕСТВО(РАЗЛИЧНЫЕ ВЫБОР
			КОГДА Слева.Свойство = Дано.Свойство
				ТОГДА Слева.Значение
		КОНЕЦ) КАК Мощность,
	КОЛИЧЕСТВО(РАЗЛИЧНЫЕ ВЫБОР
			КОГДА Слева.Свойство = Дано.Свойство
					И Слева.Значение < = Дано.Значение
				ТОГДА Слева.Значение
		КОНЕЦ) - 1 КАК Вариант,
	Дано.Свойство,
	Дано.Значение,
	Дано.Вероятность
ПОМЕСТИТЬ Цепь_1
ИЗ
	Дано КАК Дано
		ВНУТРЕННЕЕ СОЕДИНЕНИЕ Дано КАК Слева
		ПО (Слева.Свойство < = Дано.Свойство)

СГРУППИРОВАТЬ ПО
	Дано.Свойство,
	Дано.Значение,
	Дано.Вероятность

Далее выполняется серия одинаковых запросов, комбинирующих парные (нечетные и следующие за ними четные) наборы свойств. Вот текст первого такого запроса:

ВЫБРАТЬ
	ВЫРАЗИТЬ(Инь.НомерПары / 2 КАК ЧИСЛО(10, 0)) КАК НомерПары,
	Инь.НомерПары КАК Измерение,
	Инь.Мощность * ЕСТЬNULL(Янь.Мощность, 1) КАК Мощность,
	ЕСТЬNULL(ВЫБОР
			КОГДА Инь.Измерение < Янь.Измерение
				ТОГДА Инь.Вариант + Янь.Вариант * Инь.Мощность
			ИНАЧЕ Янь.Вариант + Инь.Вариант * Янь.Мощность
		КОНЕЦ, Инь.Вариант) КАК Вариант,
	Инь.Свойство,
	Инь.Значение,
	Инь.Вероятность * ЕСТЬNULL(Янь.Вероятность, 1) КАК Вероятность
ПОМЕСТИТЬ Цепь_2
ИЗ
	Цепь_1 КАК Инь
		ЛЕВОЕ СОЕДИНЕНИЕ (ВЫБРАТЬ РАЗЛИЧНЫЕ
			Цепь_1.НомерПары КАК НомерПары,
			Цепь_1.Измерение КАК Измерение,
			Цепь_1.Мощность КАК Мощность,
			Цепь_1.Вариант КАК Вариант,
			Цепь_1.Вероятность КАК Вероятность
		ИЗ
			Цепь_1 КАК Цепь_1) КАК Янь
		ПО Инь.НомерПары = Янь.НомерПары
			И Инь.Измерение <> Янь.Измерение

Число повторений этого запроса логарифмически зависит от числа свойств.

Этапы 1) и 3) для всех примеров индивидуальны.

Задача 1. Расчет вероятностей успешной сдачи теста «1С:Профессионал»

За основу берется таблица вероятностей правильного ответа на каждый из вопросов теста:

Номер вопроса теста

Вероятность правильного ответа

1

p1

2

p2

14

p14

Эту таблицу можно получить, собрав статистику по своим ответам в программе учебного тестирования.

Чтобы получить таблицу свойств, значений и вероятностей в этой задаче, используется следующий запрос:

ВЫБРАТЬ
	ВопросыЭкзамена.НомерСтроки КАК Свойство,
	1 КАК Значение,
	ВопросыЭкзамена.ВероятностьПравильногоОтвета КАК Вероятность
ИЗ
	ВопросыЭкзамена КАК ВопросыЭкзамена

ОБЪЕДИНИТЬ

ВЫБРАТЬ
	ВопросыЭкзамена.НомерСтроки,
	0,
	1 - ВопросыЭкзамена.ВероятностьПравильногоОтвета
ИЗ
	ВопросыЭкзамена КАК ВопросыЭкзамена

А чтобы найти интересующую нас вероятность по таблице вероятностей вариантов, используется следующий запрос:

ВЫБРАТЬ
	Дано.Вероятность,
	СУММА(1 - Дано.Значение) КАК ЧислоНеПравильныхОтветов
ПОМЕСТИТЬ События
ИЗ
	Дано КАК Дано

СГРУППИРОВАТЬ ПО
	Дано.Вариант,
	Дано.Вероятность
;

////////////////////////////////////////////////////////////////////////////////
ВЫБРАТЬ
	СУММА(События.Вероятность) КАК Вероятность
ИЗ
	События КАК События
ГДЕ
	События.ЧислоНеПравильныхОтветов < 3

Как видно – основное условие здесь – наличие у варианта не более двух неправильных ответов. Поэтому число вопросов в прилагаемом для тестирования отчете может быть любым.

Задача 2. Вероятность отказа дискового массива RAID-10.

За основу берутся исходные данные вероятности отказа каждого из четырех дисков:

Номер диска

Вероятность отказа диска

0

q0

1

q1

2

q2

3

q3

 

Чтобы получить таблицу свойств, значений и вероятностей в этой задаче, используется следующий запрос:

ВЫБРАТЬ
	ДисковыйМассив.НомерСтроки КАК Свойство,
	0 КАК Значение,
	ДисковыйМассив.ВероятностьОтказаДиска КАК Вероятность
ИЗ
	ДисковыйМассив КАК ДисковыйМассив

ОБЪЕДИНИТЬ

ВЫБРАТЬ
	ДисковыйМассив.НомерСтроки,
	1,
	1 - ДисковыйМассив.ВероятностьОтказаДиска
ИЗ
	ДисковыйМассив КАК ДисковыйМассив

А чтобы найти интересующую нас вероятность по таблице вероятностей вариантов, используется вот такой запрос:

ВЫБРАТЬ
	Дано.Вероятность,
	МАКСИМУМ(ВЫБОР
			КОГДА Дано.Свойство В ("0", "1")
				ТОГДА Дано.Значение
		КОНЕЦ) * МАКСИМУМ(ВЫБОР
			КОГДА Дано.Свойство В ("2", "3")
				ТОГДА Дано.Значение
		КОНЕЦ) КАК Работоспособность
ПОМЕСТИТЬ События
ИЗ
	Дано КАК Дано

СГРУППИРОВАТЬ ПО
	Дано.Вариант,
	Дано.Вероятность
;

////////////////////////////////////////////////////////////////////////////////
ВЫБРАТЬ
	СУММА(События.Вероятность) КАК Вероятность
ИЗ
	События КАК События
ГДЕ
	События.Работоспособность = 0

Условием суммирования вероятностей является отсутствие хотя бы одного работающего диска в каждой паре.

Задача 3. Вероятность критического превышения сроков выполнения проекта.

За основу берется таблица, содержащая этапы проекта и информацию об их длительности и возможных задержках.

Номер этапа

Длительность этапа

Возможная задержка

Вероятность задержки

1

t1

d1

p1

2

t2

d2

p2

n

tn

dn

Pn

 

Чтобы получить таблицу свойств, значений и вероятностей в этой задаче, используется следующий запрос:

ВЫБРАТЬ
	ЭтапыПроекта.НомерСтроки КАК Свойство,
	ЭтапыПроекта.Длительность КАК Значение,
	1 - ЭтапыПроекта.ВероятностьЗадержки КАК Вероятность
ИЗ
	ЭтапыПроекта КАК ЭтапыПроекта

ОБЪЕДИНИТЬ ВСЕ

ВЫБРАТЬ
	ЭтапыПроекта.НомерСтроки,
	ЭтапыПроекта.Длительность + ЭтапыПроекта.ВозможнаяЗадержка,
	ЭтапыПроекта.ВероятностьЗадержки
ИЗ
	ЭтапыПроекта КАК ЭтапыПроекта

А чтобы найти интересующую нас вероятность по таблице вероятностей вариантов, используется вот такой запрос:

ВЫБРАТЬ
	Дано.Вероятность,
	СУММА(Дано.Значение) КАК ОбщаяДлительностьПроекта
ПОМЕСТИТЬ События
ИЗ
	Дано КАК Дано

СГРУППИРОВАТЬ ПО
	Дано.Вариант,
	Дано.Вероятность
;

////////////////////////////////////////////////////////////////////////////////
ВЫБРАТЬ
	МИНИМУМ(События.ОбщаяДлительностьПроекта) КАК МинимальнаяДлительность
ПОМЕСТИТЬ Оценка
ИЗ
	События КАК События
;

////////////////////////////////////////////////////////////////////////////////
ВЫБРАТЬ
	СУММА(События.Вероятность) КАК Вероятность
ИЗ
	События КАК События
		ВНУТРЕННЕЕ СОЕДИНЕНИЕ Оценка КАК Оценка
		ПО (События.ОбщаяДлительностьПроекта > 2 * Оценка.МинимальнаяДлительность)

Условием суммирования вероятностей является превышение общих сроков выполнения проекта свыше, чем в два раза (это число можно было бы сделать параметром) по сравнению с минимальными.

Заключение

Метод довольно универсальный и аналогичным образом могут быть решено множество других подобных задач, связанных с перечислением вариантов и расчетом вероятностей. Ограничением предлагаемого метода является предельное число вариантов, которые могут быть рассмотрены за приемлемое время. Это число не должно быть слишком большим, так как для рассмотрения каждого варианта требуется создание и обработка нескольких записей во временной таблице. Также следует обращать внимание на точность вычислений вероятности одного варианта – стандартно она ограничена шестью знаками после запятой.

Скачать файлы

Наименование Файл Версия Размер Кол. Скачив.
Отчет "Расчет вероятностей"
.erf 14,68Kb
20.09.14
4
.erf 14,68Kb 4 Скачать

См. также

Подписаться Добавить вознаграждение

Комментарии

1. Василий Казьмин (awk) 23.09.14 18:03
(0) Надо же, синтаксис стал читаемым. Отдельный +.
AllexSoft; Makushimo; +2 Ответить 1
2. Сергей (ildarovich) 24.09.14 09:09
(1) awk, я действительно извлек уроки из прошлого обсуждения.
3. bulpi bulpi (bulpi) 24.09.14 13:08
Большое удовольствие получаю от Ваших публикаций. Вспоминаю математическую юность :)
4. Александр Пирожков (Stavsles) 24.09.14 13:43
Очень интересная публикация, автору спасибо!
5. Андрей Карпов (karpik666) 25.09.14 05:48
Спасибо, очень интересно и познавательно, каждую публикацию добавляю в закладки.
6. Максим Кузнецов (Makushimo) 17.11.14 11:20
Задача 1
"Эту таблицу можно получить, собрав статистику по своим ответам в программе учебного тестирования"
какого рода статистика имеется ввиду?

за период 01.01.2014 - 31.0.2014 :
ответов на вопрос 1
правильных - 10
не правильных 3
значит вероятность правильного ответа на вопрос 1 будет равно 10/13 = 0,7692307692307692

я верно понимаю?

И далее
если я в программе учебного тестирования произвольно формирую тест из 14 вопросов, то
по предложенной методике я смогу сформировать вероятность сдачи теста только из этих 14 отобранных вопросов?
но не вообще вероятность сдачи теста.
Для оценки вероятности сдачи теста вообще нужно строить запросы по всем 1000 вопросам задачника.
На сколько быстро в этом случае отработает методика?
7. Сергей (ildarovich) 17.11.14 15:26
(6) Makushimo,
за период 01.01.2014 - 31.0.2014 :
ответов на вопрос 1
правильных - 10
не правильных 3
значит вероятность правильного ответа на вопрос 1 будет равно 10/13 = 0,7692307692307692

я верно понимаю?
все совершенно верно до этого момента, а вот далее - не совсем. Нас интересует не вероятность ответа на каждый из 1000 вопросов теста, а вероятность правильного ответа на случайно выбранный вопрос каждого из 14 разделов теста. То есть не 1000, а всего 14 чисел нужно получить из статистики и ввести в программу. Для этого в программе учебного тестирования был добавлен документ "Тест" с реквизитами "Субъект" (имя пользователя), Вопрос (Справочник.Вопросы) и ОК (правильно или нет отвечено на вопрос). В обработку тестирования добавлена вот такая процедура
Процедура Переключатель1ПриИзменении(Элемент)
	
	Вопрос = ИтоговаяТЗ[НомерТекущегоВопроса - 1];
	
	Тест = Документы.Тест.СоздатьДокумент(); 
	
	Тест.Дата = ТекущаяДата();
	Тест.Субъект = ПользователиИнформационнойБазы.ТекущийПользователь().УникальныйИдентификатор;
	Тест.Вопрос = Справочники.Вопросы.НайтиПоКоду(Вопрос.Код, , , Вопрос.ОбъектТестирования);
	Тест.ОК = ЭлементыФормы.Переключатель1.Значение = Вопрос.ПравильныйВариантОтвета;
	
	Тест.Записать()
	
КонецПроцедуры
...Показать Скрыть
Это дает возможность затем вот таким запросом
ВЫБРАТЬ
	Тест.Вопрос.Владелец КАК ОбъектТестирования,
	Тест.Субъект КАК Субъект,
	Тест.Вопрос.Раздел КАК Раздел,
	СРЕДНЕЕ(Тест.ОК) КАК ВероятностьПравильногоОтветаНаВопросРаздела
ИЗ
	Документ.Тест КАК Тест
ГДЕ
	Тест.Дата МЕЖДУ &ДатаНачала И &ДатаОкончания

СГРУППИРОВАТЬ ПО
	Тест.Вопрос.Владелец,
	Тест.Субъект,
	Тест.Вопрос.Раздел
...Показать Скрыть
получить вероятности правильного ответа на каждый из разделов теста.

То есть проблем с количеством данных, которые нужно собирать и обрабатывать - нет. Вообще это все реально работает и действительно позволяет точнее оценить свои шансы сдать экзамен. Но поскольку конфигурация учебного тестирования - не моя, я не стал упоминать в статье эти доработки.
Прикрепленные файлы:
Для написания сообщения необходимо авторизоваться
Прикрепить файл
Дополнительные параметры ответа