Причинно-следственный анализ в бизнесе: Оценка влияния маркетинговой кампании и образования на ключевые показатели с использованием методов DID и IV (в свете работ Гвидо Имбенса)

14.05.25

Разработка - Математика и алгоритмы

В статье рассматривается применение методов причинно-следственного анализа, в частности Difference-in-Differences (DID) и инструментальных переменных (IV), для оценки влияния маркетинговой кампании на продажи и образования на заработную плату. Анализ проводится на примере данных о сети магазинов. Подчеркивается важность корректной интерпретации результатов и учета потенциальных смещений, как это акцентировал в своих работах лауреат Нобелевской премии по экономике Гвидо Имбенс. Статья ориентирована на читателей без специальной эконометрической подготовки, предлагая понятное объяснение использованных методов и полученных результатов.

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Причинно-следственный анализ в бизнесе: Гвидо Имбенс:
.epf 13,66Kb
0
0 Скачать (1 SM) Купить за 1 850 руб.

     Гвидо Имбенс, выдающийся ученый-экономист, стал лауреатом Нобелевской премии по экономике в 2021 году. Эта престижная награда была присуждена ему совместно с Джошуа Ангристом "за их вклад в методологию анализа причинно-следственных связей". Работа Имбенса оказала огромное влияние на то, как экономисты и другие исследователи подходят к изучению сложных социальных и экономических явлений, в которых крайне важно выявить истинные причины и следствия.

     Традиционные статистические методы часто сталкиваются с трудностями при определении причинно-следственных связей из-за наличия множества взаимодействующих факторов и возможности обратной причинности. Например, трудно понять, действительно ли образование приводит к более высокой заработной плате, или же более способные люди изначально получают лучшее образование и, как следствие, более высокую заработную плату. Именно здесь на помощь приходят методы, разработанные и усовершенствованные Имбенсом.

     Суть вклада Имбенса заключается в разработке и формализации статистических методов, позволяющих исследователям делать более надежные выводы о причинно-следственных связях на основе наблюдательных данных. Он не создал совершенно новые методы с нуля, но внес значительный вклад в формализацию, расширение и практическое применение существующих, таких как метод Difference-in-Differences (DID) и метод инструментальных переменных (IV).

         Метод Difference-in-Differences, как уже упоминалось, является одним из ключевых инструментов в арсенале экономиста, стремящегося оценить влияние определенной политики или события. Он особенно полезен, когда проведение контролируемого эксперимента невозможно или неэтично. Суть метода заключается в сравнении изменений, произошедших в группе, подвергшейся воздействию (например, магазины, где проводилась рекламная кампания), с изменениями, произошедшими в контрольной группе (магазины, где реклама не проводилась), в течение того же периода времени. "Разница разниц" позволяет отделить эффект от воздействия от других факторов, которые могли повлиять на результаты. Имбенс внес значительный вклад в понимание того, как правильно применять этот метод, как интерпретировать результаты и как учитывать потенциальные ошибки.

       Метод инструментальных переменных (IV) представляет собой более сложный, но часто необходимый подход, когда необходимо учесть возможность обратной причинности или наличие скрытых факторов, влияющих как на причину, так и на следствие. Суть метода заключается в поиске переменной, которая связана с предполагаемой причиной (например, образование), но не связана напрямую со следствием (например, заработная плата), кроме как через эту причину. Эта переменная, называемая "инструментом", используется для отделения истинного эффекта причины от других факторов. Имбенс внес огромный вклад в формализацию этого метода, в разработку способов выбора подходящих инструментов и в понимание ограничений метода. Он показал, как правильно использовать инструментальные переменные для получения надежных оценок причинно-следственных связей в различных экономических контекстах.

       В работах Имбенса особое внимание уделяется пониманию предпосылок, лежащих в основе этих методов. Он подчеркивает необходимость четкого определения вопроса, который пытается решить исследователь, и тщательной проверки предположений, на которых основаны используемые методы. Он предостерегает от слепого применения статистических инструментов и призывает исследователей критически оценивать полученные результаты и учитывать возможность альтернативных объяснений.

       Вклад Имбенса не ограничивается только теоретическими разработками. Он также активно занимался эмпирическими исследованиями, применяя разработанные им методы для решения конкретных экономических проблем. Он изучал влияние различных образовательных программ на заработную плату, влияние иммиграции на рынок труда и другие важные вопросы. Его работы стали образцом для многих исследователей, показывая, как правильно применять современные методы причинно-следственного анализа для получения надежных и полезных выводов.

       Наследие Гвидо Имбенса заключается не только в разработанных им методах, но и в его подходе к исследованиям. Он научил экономистов и других исследователей мыслить более критически, более тщательно проверять свои предположения и более осторожно интерпретировать результаты. Его работы стали важным шагом на пути к более надежному и обоснованному пониманию сложных социальных и экономических явлений. Присуждение ему Нобелевской премии по экономике стало заслуженным признанием его выдающегося вклада в науку и его влияния на развитие современных экономических исследований. Его работы и сейчас активно изучаются, а методы, которые он развивал и продолжает развивать, используются для решения различных задач в науке и бизнесе.

       Таким образом, методы причинно-следственного анализа, в развитии которых столь значительную роль сыграл Гвидо Имбенс, предоставляют нам мощные инструменты для изучения сложных взаимосвязей в экономике и других областях. Теперь, вооружившись этими знаниями, давайте посмотрим, как мы можем применить некоторые из этих методов на практике, анализируя данные о продажах в сети магазинов и о влиянии образования на заработную плату сотрудников. В частности, мы рассмотрим результаты применения метода Difference-in-Differences для оценки эффективности маркетинговой кампании и метода инструментальных переменных для определения влияния образования на заработную плату, принимая во внимание потенциальные смещения и неучтенные факторы, о важности учета которых говорил Гвидо Имбенс. Анализ этих результатов позволит нам сделать более обоснованные выводы о том, какие факторы действительно оказывают влияние на ключевые показатели нашего бизнеса. См. скриншот с подписью "пример". 

       Давайте представим, что мы работаем в крупной компании, владеющей сетью магазинов, и хотим понять, как различные факторы влияют на наш бизнес. Нас интересует, насколько эффективной оказалась новая рекламная кампания, которую мы запустили в части магазинов, и как образование наших сотрудников влияет на их заработную плату. Чтобы разобраться в этих вопросах, мы воспользуемся двумя разными подходами, которые помогут нам оценить влияние этих факторов на ключевые показатели.

     В "Начальные данные" представлены исходные сведения, которые мы использовали для проведения анализа. Важно понимать, что это "сырые" данные, которые служат отправной точкой для дальнейших расчетов и выводов. Чтобы облегчить понимание для читателей, далеких от статистики, давайте разберем каждый элемент этих данных.

 

Моделирование метода Difference-in-Differences (DID)

    В этом разделе мы представляем данные, которые необходимы для оценки эффективности маркетинговой кампании с использованием метода "разница разниц". Здесь у нас есть две группы магазинов: контрольная группа (где рекламная кампания не проводилась) и тестовая группа (где рекламная кампания проводилась). Для каждой группы магазинов у нас есть данные о продажах до и после начала рекламной кампании.

  • Данные до вмешательства (Группа Контрольная): Массив – Этот "массив" представляет собой набор чисел. Каждое число в этом наборе – это объем продаж в одном из магазинов контрольной группы за определенный период времени до начала рекламной кампании. Представьте себе таблицу, где каждая строка – это один магазин, а столбец – это его продажи до кампании. В этом "массиве" эти данные представлены в виде простого списка чисел.
  • Данные до вмешательства (Группа Тестовая): Массив – Аналогично, этот "массив" представляет собой набор чисел, где каждое число – это объем продаж в одном из магазинов тестовой группы за тот же период времени до начала рекламной кампании.
  • Данные после вмешательства (Группа Контрольная): Массив – Этот "массив" содержит данные о продажах в магазинах контрольной группы после начала рекламной кампании в тестовой группе. Он показывает, как изменились продажи в магазинах, где реклама не проводилась, за период после начала кампании.
  • Данные после вмешательства (Группа Тестовая): Массив – Этот "массив" содержит данные о продажах в магазинах тестовой группы после проведения рекламной кампании.

      Эти четыре "массива" данных являются основой для нашего DID-анализа. Сравнивая изменения в продажах между контрольной и тестовой группами до и после кампании, мы можем оценить, насколько эффективной была рекламная кампания.

 

Моделирование метода инструментальных переменных (IV)

     В этом разделе мы представляем данные, которые необходимы для оценки влияния образования на заработную плату с использованием метода инструментальных переменных. Здесь у нас есть три набора данных: опыт работы (который мы используем в качестве инструмента), уровень образования и заработная плата сотрудников.

  • Инструмент (Опыт работы): Массив – Этот "массив" представляет собой набор чисел, где каждое число – это стаж работы (в годах) одного из сотрудников.
  • Объясняющая переменная (Образование): Массив – Этот "массив" представляет собой набор чисел, где каждое число – это количество лет обучения (то есть, уровень образования) одного из сотрудников.
  • Зависимая переменная (Зарплата): Массив – Этот "массив" представляет собой набор чисел, где каждое число – это заработная плата одного из сотрудников (например, в тысячах рублей).

     Эти три "массива" данных используются для IV-анализа. Анализируя связь между опытом работы, образованием и заработной платой, мы можем оценить, какое влияние оказывает образование на заработную плату, учитывая другие факторы, которые могут влиять на заработок человека.

     Важно помнить, что эти данные – это лишь пример. В реальной жизни у нас было бы гораздо больше данных, и мы могли бы использовать более сложные методы анализа. Однако, эти примеры позволяют нам понять основные принципы, лежащие в основе методов DID и IV.

       Первый подход, который мы применим, называется методом Difference-in-Differences, или, если переводить более простым языком, "разница разниц". Этот метод позволяет нам оценить эффект от изменений, которые мы внесли в одной группе объектов (в нашем случае, магазины, где проводилась рекламная кампания), по сравнению с другой группой, где никаких изменений не было (магазины, где рекламная кампания не проводилась). Суть метода заключается в том, что мы сравниваем изменения, произошедшие в обеих группах, и вычисляем разницу между этими изменениями. Это позволяет нам отделить эффект от нашего воздействия (рекламной кампании) от других факторов, которые могли повлиять на результаты. Этот метод, а также более сложные подходы к оценке причинно-следственных связей, активно разрабатывались и применялись такими учеными, как Гвидо Имбенс, лауреатом Нобелевской премии по экономике за его вклад в методологию анализа причинно-следственных связей. Его работы внесли огромный вклад в понимание того, как правильно оценивать влияние различных факторов в сложных экономических системах.

Итак, давайте разберем результаты, которые мы получили, используя этот метод.

       "Среднее значение (Контрольная группа до): 95,50" – это показатель, который отражает средний уровень продаж в магазинах, где рекламная кампания не проводилась, до начала этой кампании. Чтобы получить это значение, мы взяли все магазины, где не было рекламы, сложили их продажи за определенный период времени до начала рекламной кампании, и поделили полученную сумму на количество магазинов. Это число дает нам представление о том, какой была ситуация с продажами в контрольной группе до нашего вмешательства.

       "Среднее значение (Контрольная группа после): 101,49" – это показатель, который отражает средний уровень продаж в тех же самых магазинах контрольной группы, но уже после того, как в другой группе магазинов началась рекламная кампания. Сравнивая это значение с предыдущим, мы можем увидеть, как изменились продажи в контрольной группе, даже если на них напрямую ничего не воздействовало. Это изменение может быть связано с различными факторами, такими как общая экономическая ситуация, сезонные колебания спроса, изменение потребительских предпочтений и другие причины, не связанные с нашей рекламной кампанией.

       "Среднее значение (Тестовая группа до): 105,72" – это показатель, который отражает средний уровень продаж в магазинах, где рекламная кампания проводилась, до начала этой кампании. Расчет этого значения аналогичен расчету среднего значения для контрольной группы: мы складываем продажи всех магазинов, где была реклама, за период до кампании, и делим на количество магазинов. Это дает нам представление о том, какой была ситуация с продажами в тестовой группе до нашего вмешательства.

       "Среднее значение (Тестовая группа после): 130,74" – это показатель, который отражает средний уровень продаж в тех же самых магазинах тестовой группы, но уже после того, как была проведена рекламная кампания. Сравнивая это значение с предыдущим, мы можем увидеть, как изменились продажи в магазинах, где проводилась рекламная кампания.

       "Изменение в контрольной группе: 5,99" – это показатель, который отражает разницу между средними продажами в контрольной группе после и до начала рекламной кампании. Это число показывает, насколько изменились продажи в магазинах, где не было рекламной кампании. Это изменение может быть связано с различными факторами, которые влияют на продажи в целом, и не отражает эффект от нашей рекламной кампании.

       "Изменение в тестовой группе: 25,02" – это показатель, который отражает разницу между средними продажами в тестовой группе после и до начала рекламной кампании. Это число показывает, насколько изменились продажи в магазинах, где проводилась рекламная кампания. Однако, это изменение не отражает только эффект от нашей рекламной кампании, так как на продажи могли повлиять и другие факторы.

       "Эффект воздействия (DID): 19,03" – это, пожалуй, самый важный показатель в нашем анализе DID. Он отражает оценку влияния рекламной кампании на продажи, учитывая изменения, которые произошли в обеих группах. Мы получаем это значение, вычитая изменение в контрольной группе из изменения в тестовой группе. В нашем случае, эффект воздействия составляет 19,03, что означает, что рекламная кампания увеличила продажи на 19,03 единицы сверх того изменения, которое произошло бы и без рекламной кампании. Это число позволяет нам оценить реальный эффект от нашего воздействия.

       "t-статистика: 3,11" – это показатель, который используется для оценки статистической значимости нашего результата. Статистическая значимость говорит нам о том, насколько вероятно, что наблюдаемый нами эффект (в данном случае, эффект от рекламной кампании) не является случайным, а действительно существует. Чем больше значение t-статистики, тем выше вероятность того, что эффект реален. Однако, для того, чтобы сделать окончательный вывод о статистической значимости, нам необходимо рассчитать p-значение.

       "Степени свободы: 198" – это число, которое связано с размером нашей выборки (количеством магазинов, которые мы анализировали). Степени свободы влияют на то, как мы интерпретируем t-статистику и как определяем статистическую значимость.

       "p-значение:" – это показатель, который отражает вероятность получить наблюдаемый нами эффект (или еще более сильный эффект), если на самом деле никакого эффекта нет. p-значение является ключевым показателем для определения статистической значимости. Если p-значение меньше определенного уровня (обычно 0,05), то мы считаем, что эффект статистически значим, то есть, маловероятно, что он является случайным. В нашем случае, p-значение не было вычислено автоматически, так как используемая нами обработка не содержит необходимых функций для расчета T-распределения.

       "Уровень значимости (Альфа): 0,05" – это заранее установленное значение, которое мы используем для определения, является ли наш результат статистически значимым. Обычно используется уровень значимости 0,05, что означает, что мы готовы принять 5% вероятность того, что сделаем неправильный вывод (то есть, признаем эффект существующим, когда на самом деле его нет).

       "Эффект статистически значим: Нет" – это предварительный вывод о том, является ли эффект от рекламной кампании статистически значимым. Однако, этот вывод основан на том, что p-значение не было вычислено. Для того, чтобы сделать окончательный вывод, нам необходимо рассчитать p-значение вручную и сравнить его с уровнем значимости.

   Таким образом, чтобы завершить анализ влияния рекламной кампании, нам необходимо воспользоваться онлайн-калькулятором T-распределения, ввести туда значения t-статистики (3,11) и степеней свободы (198), и получить значение p-значения. Если полученное p-значение окажется меньше 0,05, то мы сможем с уверенностью сказать, что рекламная кампания оказала положительное влияние на продажи.

       Давайте теперь рассмотрим второй подход, который мы использовали, – метод инструментальных переменных. Как и Гвидо Имбенс в своих работах, мы используем этот метод для анализа причинно-следственных связей, чтобы оценить влияние образования на заработную плату, даже если между этими двумя факторами существует сложная взаимосвязь и на них влияют другие, неучтенные факторы. Гвидо Имбенс, наряду с другими экономистами, внес значительный вклад в разработку и применение этого метода для решения сложных экономических задач.

       "Среднее значение (Инструмент): 9,75" – это показатель, который отражает среднее значение "инструмента", который мы используем в нашем анализе. В качестве инструмента мы выбрали опыт работы. Среднее значение 9,75 означает, что в нашей выборке сотрудники имеют в среднем 9,75 лет опыта работы. Инструмент должен быть связан с образованием, но не должен напрямую влиять на заработную плату, кроме как через образование. Важно, чтобы инструмент был хорошим и соответствовал определенным требованиям, чтобы мы могли доверять результатам анализа.

       "Среднее значение (Объясняющая переменная): 13,34" – это показатель, который отражает среднее значение “объясняющей переменной”, которую мы пытаемся объяснить. В нашем случае, это образование, измеренное в годах обучения. Среднее значение 13,34 означает, что сотрудники в нашей выборке имеют в среднем 13,34 лет образования.

       "Среднее значение (Зависимая переменная): 177,46" – это показатель, который отражает среднее значение “зависимой переменной”, которую мы хотим объяснить. В нашем случае, это заработная плата, измеренная в тысячах рублей. Среднее значение 177,46 означает, что сотрудники в нашей выборке зарабатывают в среднем 177,46 тысяч рублей.

       "Ковариация (Инструмент и Объясняющая переменная): 1,96" – это показатель, который измеряет, насколько сильно связаны инструмент (опыт работы) и объясняющая переменная (образование). Положительное значение ковариации означает, что с увеличением опыта работы, как правило, увеличивается и уровень образования. Чем выше ковариация, тем лучше инструмент и тем более надежными будут результаты анализа.

       "Ковариация (Инструмент и Зависимая переменная): 84,06" – это показатель, который измеряет, насколько сильно связаны инструмент (опыт работы) и зависимая переменная (заработная плата). Положительное значение ковариации означает, что с увеличением опыта работы, как правило, увеличивается и заработная плата. Эта связь между инструментом и зависимой переменной используется для оценки влияния образования на заработную плату.

       "Коэффициент воздействия (IV): 42,99" – это самый важный показатель в нашем анализе IV. Он отражает оценку влияния образования на заработную плату, учитывая инструмент (опыт работы). В нашем случае, коэффициент воздействия составляет 42,99, что означает, что каждый дополнительный год образования увеличивает заработную плату на 42,99 тысяч рублей. Этот метод позволяет нам отделить эффект от образования от влияния других факторов, которые также могут влиять на заработную плату, таких как способности, связи, и другие неучтенные переменные. Работы Гвидо Имбенса и других ученых помогли нам понять, как правильно использовать этот метод для получения надежных результатов.

       После того, как мы получили результаты IV-анализа, нам необходимо оценить, насколько они надежны и что с ними делать дальше. Важно проверить, насколько хорошим является выбранный нами инструмент (опыт работы). Он должен быть сильно связан с образованием, но не должен напрямую влиять на заработную плату, кроме как через образование. Если инструмент невалиден, то результаты анализа будут ненадежными. Кроме того, необходимо учитывать, что на заработную плату могут влиять и другие факторы, такие как способности, опыт работы (помимо инструмента), связи и другие неучтенные переменные. Если у нас есть больше данных, мы можем использовать более сложные статистические модели, которые учитывают больше факторов и позволяют получить более точные оценки влияния образования на заработную плату.

       В заключение, важно отметить, что оба подхода, которые мы использовали, – DID и IV – являются мощными инструментами для анализа данных и оценки влияния различных факторов. Однако, важно помнить, что эти методы не являются панацеей и требуют внимательного и критического подхода. Необходимо учитывать все ограничения и предположения, которые лежат в основе этих методов, а также тщательно проверять валидность полученных результатов. Только в этом случае мы сможем принимать обоснованные решения, основанные на данных.

Проверено на следующих конфигурациях и релизах:

  • 1С:ERP Управление предприятием 2, релизы 2.5.20.85

Причинно-следственный анализ Difference-in-Differences Инструментальные переменные Гвидо Имбенс Маркетинговая кампания Образование Заработная плата Эконометрика Оценка влияния Бизнес-анализ Статистическая значимость Контрольная группа Тестовая группа Эффект воздействия Ковариация Коэффициент воздействия Онлайн-калькулятор T-статистика Степени свободы Валидность инструмента.

См. также

Математика и алгоритмы Программист Платформа 1C v8.2 1C:Бухгалтерия Россия Абонемент ($m)

На написание данной работы меня вдохновила работа @glassman «Переход на ClickHouse для анализа метрик». Автор анализирует большой объем данных, много миллионов строк, и убедительно доказывает, что ClickHouse справляется лучше PostgreSQL. Я же покажу как можно сократить объем данных в 49.9 раз при этом: 1. Сохранить значения локальных экстремумов 2. Отклонения от реальных значений имеют наперед заданную допустимую погрешность.

1 стартмани

30.01.2024    7440    stopa85    12    

40

Математика и алгоритмы Бесплатно (free)

Разработка алгоритма, построенного на модели симплекс-метода, для нахождения оптимального раскроя.

19.10.2023    13374    user1959478    56    

37

Математика и алгоритмы Разное Платформа 1С v8.3 1C:Бухгалтерия Россия Абонемент ($m)

Расширение (+ обработка) представляют собою математический тренажер. Ваш ребенок сможет проверить свои знание на математические вычисление до 100.

2 стартмани

29.09.2023    7157    maksa2005    8    

26

Математика и алгоритмы Инструментарий разработчика Программист Платформа 1С v8.3 Мобильная платформа Россия Абонемент ($m)

Что ж... лучше поздно, чем никогда. Подсистема 1С для работы с регулярными выражениями: разбор выражения, проверка на соответствие шаблону, поиск вхождений в тексте.

1 стартмани

09.06.2023    15369    8    SpaceOfMyHead    20    

63

Математика и алгоритмы Программист Платформа 1С v8.3 1C:Бухгалтерия Бесплатно (free)

Три задачи - три идеи - три решения. Мало кода, много смысла. Мини-статья.

03.04.2023    8450    RustIG    9    

29

Механизмы платформы 1С Математика и алгоритмы Программист Платформа 1С v8.3 Россия Бесплатно (free)

В статье анализируются средства платформы для решения системы линейных уравнений в 1С. Приводятся доводы в пользу некорректной работы встроенных алгоритмов, а значит потенциально некорректного расчета себестоимости в типовых конфигурациях.

23.11.2022    7592    gzharkoj    15    

26

Математика и алгоритмы Программист Платформа 1С v8.3 Россия Абонемент ($m)

Обычно под распределением понимают определение сумм пропорционально коэффициентам. Предлагаю включить сюда также распределение по порядку (FIFO, LIFO) и повысить уровень размерности до 2-х. 1-ое означает, что распределение может быть не только пропорциональным, но и по порядку, а 2-ое - это вариант реализации матричного распределения: по строкам и столбцам. Возможно вас заинтересует также необычное решение этой задачи через создание DSL на базе реализации текучего интерфейса

1 стартмани

21.03.2022    9993    7    kalyaka    11    

45