Статистическая методология, применяемая при анализе экспериментов

С помощью какого метода специалисты по экспериментам вычисляют доверительные интервалы и статистическую значимость?

Мы рассчитываем выборочную дисперсию процентной величины, на которую изменился тот или иной показатель, применяя к сегментированным данным метод складного ножа. Затем выполняется двусторонняя проверка значимости с использованием доверительного интервала, для которого уровень доверия составляет 95 %.

Почему нужно сегментировать данные?

Мы сегментируем данные, чтобы на результат не влияли незначительные погрешности измерений. О том, как и в каких случаях рекомендуется применять сегментацию, вы можете прочитать в Википедии (на английском языке).

Даже если распределение вероятностей отличается от нормального, сегментация позволит приблизить его к нормальному (согласно центральной предельной теореме) при условии, что на каждый сегмент приходится достаточно данных, полученных с помощью наблюдений. Поскольку это условие выполняется не всегда, для вычисления доверительного интервала мы применяем метод складного ножа.

Почему нужно использовать метод складного ножа?

Генерация повторных выборок методом складного ножа – принятый в Google стандарт, поскольку это очень действенный метод, который может применяться в самых разных ситуациях. Он также позволяет эффективно выявлять резкие отклонения и уменьшать смещение выборочной оценки. Особенно полезен метод складного ножа в случаях, когда объем данных недостаточен для получения точной оценки с помощью центральной предельной теоремы. Мы применяем этот метод к сегментированным данным, чтобы уточнить границы наших доверительных интервалов.

Общие сведения о методе складного ножа вы найдете в Википедии. Более подробная информация о его пользе приводится в этом документе.

Могут ли сторонние рекламодатели объединять данные об эффективности нескольких экспериментов после их проведения и вычислять сводные статистические показатели?

Нет, рекламодатели не имеют доступа к содержащейся в аккаунтах пользователей информации, которая необходима для воссоздания сегментов и применения алгоритма складного ножа. В настоящее время у нас нет инструментов, позволяющих решать такие задачи по поручению наших клиентов.

Влияет ли таргетинг на то, каким образом аукционы распределяются между экспериментальной и исходной кампаниями?

Нет, не влияет. Доступные аукционы распределяются до того, как будут применены настройки таргетинга. Например, при разделении в пропорции 50:50 экспериментальная и исходная кампании будут участвовать в одинаковом количестве аукционов.

Как правильно выполнять A/A-тестирование?

На время A/A-тестирования в экспериментальной и исходной кампаниях должны быть одинаковые объявления, статусы их рассмотрения, группы объявлений, настройки и т. д. Любые изменения при проведении A/A-тестировании следует вносить одновременно в обе кампании.

Каких результатов следует ожидать от A/A-тестирования?

Нормальный результат – отсутствие статистически значимых различий в количестве кликов и показов, а также в значениях CTR и ценах за клик между двумя кампаниями.

В чем разница между разделением на группы на основе поисковых запросов и на основе файлов cookie?

Если экспериментальная группа выделяется на основе поисковых запросов, то случайный выбор между исходной и экспериментальной кампаниями, которые должны выполнить показ рекламы, будет выполняться в момент, когда пользователь указывает запрос в Google Поиске. Выполняя поиск многократно, один и тот же пользователь может увидеть объявления из обеих версий кампании. Если экспериментальная группа выделяется на основе файлов cookie, то пользователю будут предлагаться материалы только из одной кампании независимо от того, сколько поисковых запросов он укажет. Это помогает исключить влияние прочих факторов на конечный результат.

Сколько используется сегментов?

Используется 20 сегментов в контрольной группе и столько же – в экспериментальной. Если сегментов будет слишком много, то может потребоваться слишком много времени на получение статистически значимых результатов. В случае же недостатка сегментов вероятны неточности при вычислении доверительных интервалов. Таким образом обеспечивается баланс между удобством проведения статистического исследования и его результативностью.

Эта информация оказалась полезной?

Как можно улучшить эту статью?