在数据分析中,抽样是指:从全部数据中选择部分数据进行分析,以发掘适用于更大数据集的有用信息。举个例子:假设有一片占地 100 英亩的区域,其中的树木分布非常均匀;如果您要估算该区域的树木数量,则可以统计一英亩的树木数量,然后用所得数值乘以 100,或者统计半英亩的树木数量,然后用所得数值乘以 200,从而得出可准确代表整个 100 英亩区域树木数量的结果。
本文介绍了 Google Analytics(分析)在哪些情况下会将会话抽样应用于您的数据以便为您及时提供准确的报告。
本文包含的主题:
抽样最低限额
默认报告不受抽样影响。
对于临时数据查询,需要满足以下常规的抽样最低限额:
- Google Analytics(分析)标准版:在您使用的日期范围内,媒体资源级别的会话数达到 50 万
- Analytics 360:在您使用的日期范围内,数据视图级别的会话数达到 1 亿
在某些情况下,抽样的会话数可能较少。这可能是由于 Google Analytics(分析)实施比较复杂、使用了数据视图过滤器、细分查询过于复杂,或上述多个因素共同导致的。虽然我们会尽最大努力使抽样会话数达到上述限额,但有时临时查询返回的会话数会略微少一些,这是正常现象。
应用抽样的情况
以下部分介绍了 Google Analytics(分析)报告可能会在哪些情况下应用会话抽样。
默认报告
Google Analytics(分析)有一组预配置的默认报告,列示在左侧窗格的“受众群体”、“流量获取”、“行为”和“转化”下。
Google Analytics(分析)会针对各个帐号中的每个媒体资源存储未经过滤的完整数据集。对于媒体资源中的各个报告数据视图,Google Analytics(分析)还会基于未经过滤的完整数据创建汇总的维度和指标表格。在生成默认报告时,Google Analytics(分析)会查询汇总数据表格,以快速提供非抽样结果。
Google Analytics(分析)会定期添加新的报告,有时还会更改指标的计算方式。如果某个报告的日期范围中包含添加该报告或更改指标计算方式之前的时间,则 Google Analytics(分析)会发出临时查询请求,并且可能会对数据进行抽样。
对于使用“用户数”和“活跃用户数”指标的报告,如果其中包含 2016 年 9 月以前的数据,则会对这些数据进行抽样。了解详情
在 Google Analytics(分析)标准版和 Analytics 360 中,不对默认报告进行抽样。但是,如果您使用自动标记覆盖功能,则某些 Google Ads 报告可能会应用抽样。
临时报告
如果您以某种方式修改了默认报告(例如应用细分、过滤条件或次级维度),或者如果您创建了一个自定义报告并采用了默认报告中不存在的维度和指标组合,则会生成临时的 Google Analytics(分析)数据查询。
首先,Google Analytics(分析)会转到汇总数据表格,了解其中是否有临时查询所请求的所有信息。如果该表格中没有相应信息,Google Analytics(分析)会查询未经过滤的完整数据集以满足查询请求。
如果您指定的日期范围内的会话数超过媒体资源类型的抽样最低限额,系统将对临时查询应用抽样。
抽样算法从整个数据集中选取样本,该样本与您使用的日期范围内相应媒体资源的每日会话分布数量成比例。例如,如果按 25% 的抽样率对 5 天的会话进行抽样,则样本中会包含每日会话数的 25%。
星期一 | 星期二 | 星期三 | 星期四 | 星期五 | |
---|---|---|---|---|---|
总会话数 | 200000 | 100000 | 200000 | 300000 | 200000 |
25% 的样本 | 50000 | 25000 | 50000 | 75000 | 50000 |
抽样率因查询而异,具体取决于指定数据视图在相应日期范围内的会话数。
当系统进行抽样时,您会在报告顶部看到如下消息:此报告的抽样基准为总会话数的 N%。
在该消息的右侧,您可以选择以下两个选项之一来更改抽样规模:
- 准确度更高:尽可能使用最大的抽样规模来获得最能准确代表您全部数据的结果
- 响应速度更快:使用较小的抽样规模来更快获得结果
其他报告
以下报告的抽样方式与默认报告或临时查询不同。
“多渠道漏斗”报告
与默认报告类似,除非您修改报告(例如更改回溯期、更改包含的转化次数,或者添加细分或次级维度),否则此类报告不会应用抽样。如果您以任何方式修改了报告,则返回的样本最多包含 100 万次转化。
“用户流可视化”报告
“用户流可视化”报告(用户流、行为流、事件流、目标流)基于选定日期范围内的最多 10 万次会话生成。
“用户流可视化”报告(包括进入率、退出率和转化率)的结果可能与默认行为报告和转化报告(基于其他样本集)的结果有所不同。
过滤器和细分
应用数据视图过滤器后,Google Analytics(分析)标准版和 Analytics 360 会对数据视图级别的会话数据进行抽样。例如,如果数据视图过滤器纳入或排除相应会话,则仅针对这些会话进行抽样。
应用报告过滤器并进行抽样后,Google Analytics(分析)标准版和 Analytics 360 均会应用细分,这意味着,一个细分包含的会话数可能少于整个样本所包含的会话数。
调整样本规模
通过抽样规模控制选项,您可以在最大规模的抽样(报告准确性更高)和较小规模的抽样(查询相应速度更快)之间切换。
避免抽样的一种方法是:缩短报告的日期范围,直到会话的数量低于抽样最低限额(如果您的数据量允许的话)。
如果您是 Google Analytics 360 用户,则还可以通过另外 2 种方式获得非抽样报告: