异常值检测是一种统计技术,Google Analytics(分析)智能可运用这种技术标识给定指标在时间序列数据中的异常值,以及相同时间点某个细分内的异常值。
标识指标在一段时间内的异常值
Google Analytics(分析)智能会将贝叶斯状态时空序列模型应用于历史数据,以预测时间序列中最近观测到的数据点的值。该模型会生成预测值和可信区间,供我们用于评估所观察的指标。
通过运用历史数据,Google Analytics(分析)智能会预测相关指标在当前时间段的值,并在实际值超出可信区间的情况下,将该数据点标记为异常值。对于检测每小时异常值的情况,训练期为 2 周;对于检测每天异常值的情况,训练期为 90 天;对于检测每周异常值的情况,训练期为 32 周。
标识相同时间点某个细分内的异常值
虽然基于时间序列的异常值检测会使用历史数据来标记单个维度值内的单个指标,但我们还提供了同时针对某个时间点的多个指标和维度值的异常值检测。
在这个方法中,我们运用了主成分分析 (PCA) 技术,以利用指标的相关性结构和交叉验证来标记异常值。
首先,我们会标识一组将进行 PCA 分析的维度和指标;我们会根据所有可能的维度值创建多个细分,然后根据细分中的用户数对每个指标进行标准化。接下来,我们会为这些细分和标准化指标运行 PCA 分析。如有任何特定细分在任意指标上表现出异常行为,且涵盖该媒体资源中至少 0.05% 的用户,我们就会将这些细分标识为异常值。目前,我们每周都会进行这项分析。