数据抽样简介

在数据分析中,抽样是指:从全部数据中选择部分数据进行分析,以发掘更大规模数据集中的有用信息。例如,假设有一片占地 100 英亩且其中树木分布非常均匀的区域,如果您要估算该区域的树木数量,则可以统计一英亩的树木数量,然后用所得数值乘以 100,或者统计半英亩的树木数量,然后用所得数值乘以 200,从而得出可准确代表整个 100 英亩区域树木数量的结果。

本文介绍了 Google Analytics(分析)在哪些情况下会将会话抽样应用于您的数据以便为您及时提供准确报告。

 

本文包含的主题:

抽样限额

默认报告不受抽样影响。

数据的临时查询受以下常规抽样限额限制:

  • Google Analytics(分析)标准版:在您使用的日期范围内,媒体资源级别的会话数达到 50 万
  • Analytics 360:在您使用的日期范围内,数据视图级别的会话数达到 1 亿

    360 限额因查询的配置方式而异。有关详情,请与您的 Analytics 360 支持团队联系。

应用抽样的情况

以下部分介绍了您可以在 Google Analytics(分析)报告中应用会话抽样的情况。

默认报告

Google Analytics(分析)有一组预配置的默认报告,列示在左侧窗格的“受众群体”、“流量获取”、“行为”和“转化”下。

Google Analytics(分析)会针对各个帐号中的每个媒体资源存储未经过滤的完整数据集。对于媒体资源中的各个报告数据视图,Google Analytics(分析)还会基于未经过滤的完整数据创建汇总的维度和指标表格。在生成默认报告时,Google Analytics(分析)会查询汇总数据表格,以快速提供非抽样结果。

Google Analytics(分析)会定期添加新的报告,有时还会更改指标的计算方式。如果某个报告的日期范围中包含添加该报告或更改指标计算方式之前的时间,则 Google Analytics(分析)会发出临时查询请求,并且可能会对数据进行抽样。

在使用“用户数”和“活跃用户数”指标的报告中,如果其中包含 2016 年 9 月以前的数据,则会对这些数据进行抽样。了解详情

在 Analytics Standard 和 Analytics 360 中,不对默认报告进行抽样。但是,如果您使用 UTM 覆盖功能,则可能会在某些 Google Ads 报告中看到抽样。

临时报告

如果您以某种方式修改了默认报告(例如应用细分、过滤条件或次级维度),或者如果您创建了一个自定义报告并采用了默认报告中不存在的维度和指标组合,则会生成 Google Analytics(分析)数据的临时查询。

首先,Google Analytics(分析)会转到汇总数据表格,了解其中是否有临时查询所请求的所有信息。如果该表格中没有相应信息,Google Analytics(分析)会查询未经过滤的完整数据集以满足查询请求。

如果您使用的日期范围内的会话数超过媒体资源类型的限额,临时查询将进行抽样。

抽样算法使用完整数据的样本,该样本与您使用的日期范围内相应媒体资源的每日会话数分布成比例。例如,如果按 25% 的抽样率对 5 天的会话进行抽样,则样本中会包含每日会话数的 25%。

  星期一 星期二 星期三 星期四 星期五
总会话数 200000 100000 200000 300000 200000
25% 的样本 50000 25000 50000 75000 50000

 

抽样率因查询而异,具体取决于指定数据视图在相应日期范围内的会话数。

当抽样生效时,您会在报告顶部看到如下消息:此报告的抽样基准为总会话数的 N%。

在该消息的右侧,您可以选择以下两个选项之一来更改抽样规模:

  • 准确度更高:使用最大可能的抽样规模可获得最能准确代表您全部数据的结果
  • 响应速度更快:使用较小的抽样规模可更快获得结果
Sampling controls: Greater precision or Faster response
抽样对照组。

其他报告

以下报告的抽样方式与默认报告或临时查询不同。

多渠道漏斗报告和归因报告

与默认报告相似,除非您修改报告(例如更改回溯期、更改包含的转化次数,或者添加细分或次级维度),否则此类报告不会应用抽样。如果您以任何方式修改了报告,则会返回最多 100 万次转化的样本。

用户流可视化报告

用户流可视化报告(用户流、行为流、事件流、目标流)基于选定日期范围内的最多 10 万次会话生成。

用户流可视化报告(包括进入率、退出率和转化率)的结果可能与默认行为报告和转化报告(基于其他样本集)的结果有所不同。

过滤器和细分

应用数据视图过滤器后,Analytics Standard 和 Analytics 360 会对数据视图级别的会话数据进行抽样。例如,如果数据视图过滤器纳入或排除相应会话,则仅针对这些会话进行抽样。

应用报告过滤器并进行抽样后,Analytics Standard 和 Analytics 360 均会应用细分,这意味着,一个细分包含的会话数可能少于整个样本所包含的会话数。

调整样本规模

通过对照组,您可以在最大规模的抽样(报告准确性更高)和较小规模的抽样(查询相应速度更快)之间切换。

避免抽样的一种方法是:缩短报告的日期范围,直到会话的数量低于抽样限额(如果您的数据量允许的话)。

如果您是 Google Analytics 360 用户,则还可以通过另外 2 种方式获得非抽样报告:

该内容对您有帮助吗?
您有什么改进建议?