Что такое выборка данных
Выборка – это анализ поднабора данных с целью выявить значимую информацию в большем наборе данных. Это позволяет быстрее извлекать данные и почти не влияет на их качество.
Например, если вы хотите рассчитать количество деревьев на площади в 100 гектаров с более или менее равномерным распределением деревьев, можно подсчитать количество деревьев на одном гектаре и умножить на 100. Или же можно подсчитать деревья на половине гектара и умножить полученное число на 200. Это позволяет определить количество деревьев на всей площади в 100 гектаров.
Почему может применяться выборка данных
В Google Аналитике выборка данных может применяться, если количество событий, используемых в отчетах, исследованиях или запросе, превосходит ограничение для ресурса. В этом случае Аналитика использует часть данных и масштабирует расчеты, чтобы вы получили репрезентативные результаты.
Если результаты создаются на основе выборки, на значке "Качество данных" показывается, какой процент данных был использован. Чем больше объем выборки, тем точнее результаты.
Какие ограничения действуют
Для запросов на уровне событий применяются ограничения в 10 млн событий для ресурсов Google Аналитики и до 1 млрд – для ресурсов Google Аналитики 360.
Первоначальный лимит по умолчанию для ресурсов Google Аналитики 360 составляет 100 млрд событий на запрос, чтобы вы могли быстро получить репрезентативные результаты. Если вам нужна более высокая точность, нажмите на значок качества фидов и выберите "Подробные результаты", чтобы увеличить размер выборки для исследования.
Что делать с полными данными
Для создания полных отчетов в Google Аналитике используется алгоритм HyperLogLog++ (HLL++), позволяющий оценивать количество уникальных значений для распространенных показателей, в том числе "Активные пользователи" и "Сеансы". Такое использование алгоритма HLL++ повышает эффективность и точность расчетов и снижает предел погрешности. Этот алгоритм также можно использовать для работы с данными Google Аналитики в BigQuery. Подробнее о приблизительном расчете уникальных значений в Google Аналитике…