搜索
清除搜索查询
关闭搜索框
Google 应用
主菜单
true

概览

多手柄老虎机实验

作者:经济分析师Steven L. Scott博士

本文描述了Analytics(分析)内容实验背后的统计引擎。Analytics (分析)采用多手柄老虎机实验方法来管理在线实验。“多手柄老虎机”实验具有如下特征:

  • 目标是找出效果最佳或最具赢利潜力的操作
  • 可根据实验的进展更新随机化分布

“多手柄老虎机”这一名称描述了一种假想实验,在实验中,您将面对数个可能具有不同预计派彩的老虎机(“单手柄老虎机”)。您需要找出派彩率最高的老虎机,并且最大限度地提高赢得的彩金。实验的基本冲突位于“利用”过去表现良好的手柄和“探索”表现可能会更好的新手柄或看似较差的手柄之间。我们在Analytics(分析)内容实验中使用高度发达的用于管理老虎机问题的数学模型。

本文的一开始将介绍一些关于在Analytics(分析)中使用多手柄老虎机实验的一般背景。然后举出两个使用我们的多手柄老虎机算法的模拟实验示例。之后再解答一些常见问题,最后附上一份附录,其中包含技术运算和理论细节。

背景

老虎机实验的工作原理

我们会每天两次以全新的视角查看您的实验,了解各个版本页的效果如何,然后调整日后传至各个版本的流量的比例。效果好的版本页获得的流量会更多,而效果明显不佳的版本获得的流量则会减少。我们会根据一个同时考虑了样本量和效果指标的统计公式(如需详细信息,请参阅附录)来做出调整,因此我们确信所做出的调整具有真正的效果差异,并非只是随机更改而已。随着实验的进行,我们可以越来越详细地了解相对结果,因此我们可以更明智地选择效果好的版本。

优点

与基于统计假想检定的“经典”A-B 实验相比,多手柄老虎机实验通常效率更高。其统计有效性相当,并且在部分情况下还可以更快地生成结果。效率高是因为它们会逐渐将流量引导至效果好的版本,而不是强迫您等待在实验结束时生成“最终结果”。速度可以更快的原因是,系统会将原本转至效果明显不理想的版本的样本分配给潜在的胜出者。系统针对效果理想的版本所收集的额外数据,可以帮助您更快地从“良好”的版本中区分出“最佳”的版本。

简单来说,老虎机实验更加高效,这样您就可以开展更多实验。您也可以向实验分配更多的流量,因为系统会自动将流量引介给效果更好的网页。

示例

简单的A/B测试

假设您网站上的转化率为4%。 您正在对网站的一个新版本进行实验,其当时实际生成的转化为5%。您当然不知道真正的转化率是多少,这也是您进行实验的原因,但是我们假设您希望实验能够检测出5%的转化率,而统计学意义有95%的概率。标准的功率计算1会告诉您,您需要22,330个观察结果(每支手柄中11,165个)才能有95%的把握检测到转化率中0.04到0.05的转移。假设您的实验每天获得100次会话,那么该实验需要223天才能完成。在标准实验中,您需要等待223天,进行假设检定,然后得到答案。

现在,您可以通过多手柄老虎机来管理每天的100次会话。第一天会将大约50个会话分配给每台老虎机,我们来看看结果。我们使用贝叶斯定理来计算该版本比原始版本2更好的概率。用1减去这个数字就是原始版本更好的概率。我们假设原始版本在第一天运气不错,它显示出有70%的机会成为佼佼者。然后,我们在第二天分配给原始版本70%的流量,而该变体版本获得30%。在第二天结束的时候,我们会累积目前为止见到的所有流量(两天内),然后重新计算每支手柄更优秀的概率。此举给出了第三天实验的权重。我们会重复此过程,直至满足一组停止规则(我们将在下文中详细介绍停止规则)。

图一中模拟了此设置将会发生的情况。在图中,您可以看到原始版本(黑线)和变体版本(红色虚线)的权重,实质上,它们来回交替直至该变体版本跨越95%置信度线。(这两个百分比必须加到100%,所以当其中一个增加时,另一个就会减少)。该实验在66天内就能完成,为您免去了157天的检定。

图1。 针对简单的两手柄实验的最佳手柄概率的模拟。这些权重给出了每支手柄每天分配到的流量的分数。

当然,这只是一个示例。我们重新进行500次该模拟,观察老虎机在反复采样中的表现如何。图2中显示了结果的分布情况。该检定比基于功率计算的经典检定平均快175天。平均节省了97.5次转化。

图2。 节省的时间和节省的转化次数对比以功率计算为基础的经典实验的分布情况。假设原始版本的转化率为4%,而变体版本的转化率为5%。

什么是统计有效性?如果我们使用的数据较少,不就意味着会增加错误率吗不一定。在上文中显示的500次实验中,老虎机有482次找到了正确的那支手柄。其概率为96.4%,与经典检定的错误率大致相同。只有少数实验中的老虎机实际用时比建议的功率分析要长,这种情况约占案例的1%(500次中有5次)。

我们还可以进行相反的实验,即原始版本拥有5%的成功率,而变体版本拥有4%。实验的结果基本对称。在500次实验中,老虎机又有482次找到了正确的那支手柄。相对于经典实验,其平均节省的时间为171.8天,而平均节省的转化次数为98.7次。

停止实验

默认情况下,我们强制老虎机至少运行两周。在那之后,我们会保持跟踪两项指标。

第一项指标是每种变体版本击败原始版本的概率。如果我们有95%的把握确保变体版本能够击败原始版本,Analytics(分析)就会宣布已经找到胜出者。无论是两周的最短持续时间,还是95%的置信水平均可由用户自行调整。

我们监控的第二项指标就是“实验中剩余的潜在价值”,这一点在多手柄实验中尤为实用。在实验中的任何时候都会有一支“冠军”手柄被认定为效果最佳。如果实验“现在”结束,冠军就是您将会选择的那支手柄。实验中的“剩余价值”指的是您通过避开冠军而增加的转化率的量。实验的全部意义就在于搜索此价值。如果您100%确定冠军就是效果最佳的那支手柄,那么该实验就没有剩余价值,也就是说该实验毫无意义。但是,如果您只有70%的把握确定某支手柄的效果最佳,那么另外一支手柄效果更好的可能性就是30%,我们可以使用贝叶斯的规则算出它效果更佳的分布情况。(请参阅附录,了解计算的详细信息)。

当实验中的剩余价值至少有95%的可能性少于冠军的转化率的1%时,Analytics(分析)会结束该实验。这是1%的提高,而不是一个百分点的提高。所以,如果效果最佳的那支手柄的转化率是4%,那么当实验中的剩余价值少于转化率的0.04个百分点时,我们就会结束实验。

根据潜在的剩余价值结束实验是很不错的做法,因为它能把其中的关系处理得很好。例如,在多手柄实验中,很有可能出现两支或多支手柄的效果相同的情况,在这种情况下,选择哪支手柄就并不重要了。您不应该将实验运行到找到效果最佳的那支手柄时就停止(因为有两支效果最佳的手柄)。您应该在确定转换各手柄对您的帮助已经没有那么大的时候再结束实验。

更为复杂的实验

多手柄老虎机实验的优势比经典实验更多是因为该实验更为复杂。在考虑如何改善自己的网页时,您可能不止有一种想法,所以,您希望进行检定的变体版本也可能不止一种。我们假设您针对原始版本设计了5个变体版本。当您将原始版本与最大型的变体版本做比较时,您需要进行计算,所以我们需要进行一定程度的调整以便进行多重比较Bonferroni 调整是一种简单的调整(如果较为保守的话),用假设检定的显著性水平除以手柄的数量即可实施。因此,我们使用显著性水平0.05 / (6 - 1)来进行标准功率计算,然后,我们发现实验中的每支手柄需要15,307个观察结果。6支手柄共计需要91,842个观察结果。如果每天有100次会话,那么该实验需要运行919天(两年半以上的时间)。在现实生活中,如果实验时间持续这么长根本没有任何意义,但是我们仍然可以将该思想实验作为模拟实验来进行。

现在,让我们通过老虎机模拟器来进行6手柄实验。我们再一次假设原始手柄的转化率为4%,而效果最佳的手柄的转化率为5%。在其他4支手柄中,包括一支转化率为4.5%的优于原始手柄的次优手柄,以及三支效果较差的手柄,它们的转化率分别为3%、2%和3.5%。图3中显示了结果的分布情况。实验的平均持续时长为88天(经典实验的时长为919 天)平均节省的转化数量为1,173 次。实验持续时间的分布会留有很长的尾巴(它们并不总是结束得很快), 但即使是在最差的案例中,通过老虎机运行的实验也要比经典实验节省800多次转化。

图3。 与经典实验中采用的Bonferroni调整功率计算相比,6手柄实验所节省的成果。左侧面板显示的是完成实验所需的天数,垂直线则表示经典功率计算所需的时间。右侧面板中显示的是老虎机实验节省的转化次数。

更快地结束实验是节省成本的一部分原因,还有一部分原因要归功于实验运行期间减少了浪费行为。图4中显示的是第一次模拟(共500次)中所有手柄的权重历史记录。最开始的时候可能会有一些混乱,因为老虎机要分别挑选出效果良好和效果欠佳的手柄,但是效果非常差的手柄的权重会急速下降。在本案例中,原始手柄在实验开始时就比较幸运,所以它比其他一些竞争对手幸存的时间更长。但是大约在50天之后,局势已经明朗,即:原始手柄和最终胜出者之间的两强相争。一旦其他手柄被有效地淘汰之后,原始手柄和最终胜出者之间就会分割每天的100个观察结果。请注意老虎机如何以经济角度(倾向于流向最有可能实现理想回报的手柄)和统计角度(倾向于流向我们最希望对其进行了解的手柄)来分配这些观察结果。

图4。 其中一个6手柄实验的权重历史记录。

图 5 中显示的是相对于一直采用第二支手柄(效果最佳的手柄)的“oracle”策略,运行多手柄老虎机实验的每日成本。(这种做法当然是不公平的,因为在现实生活中,我们根本不知道哪支手柄的效果最佳,但我们仍然可以将其作为一个实用的基线。)通常,把每个观察结果分配给原始手柄需要耗费一次转化的0.01,因为原始手柄的转化率比第二支手柄少0.01。同样,将每个观察结果分配给第五支手柄需要耗费0.03次转化,因为它的转化率比第二支手柄少0.03。如果我们将分配给每支手柄的观察结果的数量乘以该手柄的成本,然后求出这些手柄的总和,我们就会得出该日运行实验的成本。在经典实验中,每支手柄每天分配到100/6(此为平均数字,具体取决于怎样分配局部观察结果)次会话。计算出的结果是:经典实验运行一天需要耗费1.333次转化。图5中的红线显示的是运行老虎机实验的每日成本。随着时间的流逝,实验的成本就会越来越低,因为效果较差的手柄只能得到更少的权重。

图5。 运行老虎机实验的每日成本。水平虚线显示的是运行经典实验的每日固定成本。

1 R函数power.prop.test执行了本文中的所有功率计算。

2 如果您确实希望了解计算的详细信息,请参阅附录。如果您不需要,则可以跳过此步骤。

本文是否对您有帮助?
您有什么改进建议?
false