Выборка данных

Выборка – это анализ подмножества данных с целью выявить значимую информацию в большем наборе данных. Например, если вы хотите оценить количество деревьев на площади в 100 гектаров с более или менее равномерным распределением деревьев, можно подсчитать количество деревьев на одном гектаре и умножить на 100. Или же можно подсчитать число деревьев на половине гектара земли и умножить его на 200. Это позволяет определить количество деревьев на всей площади в 100 гектаров.

В этой статье описывается, когда в Google Analytics применяется выборка данных для своевременного создания точных отчетов.

 

Содержание

Пороговые значения выборки

Отчеты по умолчанию не подлежат выборке.

В быстрых запросах используются следующие пороговые значения для выборки данных:

  • Стандартная версия Google Аналитики: 500 000 сеансов на уровне ресурса для выбранного диапазона дат.
    При некоторых условиях выборка может содержать менее 500 000 сеансов. Это зависит от сложности вашего решения по внедрению Google Аналитики, использования фильтров представлений, сложности запроса для сегментирования, а также от сочетаний этих факторов. Система стремится анализировать 500 000 сеансов, но при быстрых запросах размер выборки может оказаться немного меньше.
  • Google Аналитика 360: 100 000 000 сеансов на уровне представления для выбранного диапазона дат.
    Пороговые значения в Google Аналитике 360 зависят от конфигурации запроса. За дополнительной информацией обращайтесь в службу поддержки Google Аналитики 360.

Когда применяется выборка

В следующих разделах объясняется, где может производиться выборка данных в отчетах Google Analytics.

Отчеты по умолчанию

В Google Analytics есть ряд стандартных отчетов по умолчанию. Они перечислены на панели слева под заголовками "Аудитория", "Источники трафика", "Поведение" и "Конверсии".

Google Analytics хранит один полный, неотфильтрованный набор данных для каждого ресурса в аккаунте. Для каждого представления в ресурсе система также создает таблицы агрегированных параметров и показателей на основе полных, неотфильтрованных данных. Когда вы создаете отчет по умолчанию, Google Analytics обращается к этим таблицам, чтобы быстро выдать результаты без выборки.

В Google Аналитике периодически появляются новые отчеты и вносятся изменения в схему расчета показателей. Если диапазон дат отчета включает период времени до того, как отчет был добавлен или изменился способ вычисления показателей, в Google Аналитике может быть создан быстрый запрос, для которого будет произведена выборка данных.

Выборка данных применяется, если отчеты, включающие показатели "Пользователи" и "Активные пользователи", содержат данные за периоды раньше сентября 2016 года. Подробнее…

Отчеты по умолчанию не подвергаются выборке данных ни в стандартной версии, ни в Google Аналитике 360. Однако если вы разрешили перезапись тегов вручную, некоторые отчеты Google Рекламы могут создаваться на основе выборки.

Быстрые отчеты

Если вы каким-либо образом измените отчет по умолчанию, например применив сегмент, фильтр или дополнительный параметр, или создадите специальный отчет с комбинацией параметров и показателей, которых нет в отчете по умолчанию, при этом будет отправлен быстрый запрос данных.

Сначала система обращается к агрегированным таблицам данных. Если требуемой информации там нет, Google Analytics запрашивает полный, неотфильтрованный набор данных.

Быстрые запросы подвергаются выборке, если количество сеансов за используемый диапазон дат превышает порог для этого типа ресурса.

Алгоритм использует выборку полных данных, которая пропорциональна ежедневному распределению сеансов для ресурса за указанный диапазон дат. Например, если за пятидневный период использовалась выборка 25 %, то она содержит 25 % сеансов каждого дня:

  Пн Вт Ср Чт Пт
Всего сеансов 200 000 100 000 200 000 300 000 200 000
Выборка 25% 50 000 25 000 50 000 75 000 50 000

 

Частота выборки меняется от запроса к запросу в зависимости от количества сеансов в течение диапазона дат для данного представления.

Если выполняется выборка, в верхней части отчета вы увидите сообщение Отчет создан на основе анализа N % сеансов.

Справа от этого сообщения можно выбрать один из двух режимов, определяющих размер выборки:

  • Более точные результаты. Используется выборка максимального размера, обеспечивающая высокую репрезентативность данных.
  • Быстрая обработка. Используется выборка небольшого размера, за счет чего достигается высокая скорость получения данных.
Sampling controls: Greater precision or Faster response
Управление выборкой

Другие отчеты

В указанных ниже отчетах выборка работает по-другому.

Отчеты "Многоканальные последовательности" и "Атрибуция многоканальных последовательностей"

Как и для отчетов по умолчанию, выборка не применяется, если вы не модифицируете отчет (например, меняя окно ретроспективного анализа или включаемые конверсии либо добавляя сегмент или дополнительный параметр). Если вы каким-либо образом изменяете отчет, максимальная выборка составит 1 000 000 конверсий.

Визуализация переходов

Отчеты "Визуализация переходов" ("Пути пользователей", "Карта поведения", "Карта событий", "Карта целей") создаются на основе данных максимум по 100 000 сеансов за указанный диапазон дат.

Данные в отчетах "Визуализация переходов" (в том числе показатели входа, показатели выхода и коэффициенты конверсии) могут отличаться от представленных в стандартных отчетах по поведению и конверсиям, поскольку эти отчеты строятся на других выборках.

Фильтры и сегменты

Как в стандартной версии, так и в Google Analytics 360 выборка данных о сеансах производится на уровне представления после применения фильтров. Например, если фильтры представления включают или исключают сеансы, выборка производится из полученного в результате набора сеансов.

И в стандартной версии, и в Google Analytics 360 сегменты применяются после фильтров отчета и после выборки. Это означает, что сегмент может включать меньше сеансов, чем общая выборка.

Работа с размером выборки

Используйте переключатели, чтобы выбрать нужный вариант: максимальный размер выборки для более точного отчета или меньший размер выборки для более быстрого ответа на ваш запрос.

Один из способов избежать выборки состоит в том, чтобы сократить диапазон дат отчета так, чтобы количество сеансов не достигало порога выборки (если позволяет объем данных).

Если вы пользуетесь Google Аналитикой 360, то получать отчеты без выборки можно ещё двумя способами:

Эта информация оказалась полезной?
Как можно улучшить эту статью?