概览

常见问题解答(多手柄老虎机)

老虎机实验始终能找到效果最佳的那支手柄吗?

实际上,我们使用的多手柄老虎机算法在永远运行实验的前提下能够保证找到效果最佳的那支手柄[3] [4]。但您不会永远将实验运行下去,所以我们无法绝对保证找到的那支手柄就一定是效果最佳的手柄。当然,没有一种统计方法能够凭借有限的数据为您找出 100% 肯定的最佳答案,所以,我们的老虎机算法也不能,这并不奇怪。这也是我们将实验的长度限制为 3 个月的原因。如果到那时我们还未找到胜出者,可能就意味着没有什么值得发现的内容,而且您最好尝试从网站的其他角度着手进行实验。

老虎机实验的用时总是比经典检定的用时短吗?

与经典检定相比,老虎机实验能够以更低的成本更快速地取得成果,并保持与经典检定旗鼓相当的统计有效性,但偶尔也会有一些实验的用时比预计的用时长。

哪种类型的实验会使多手柄老虎机在与经典检定相比较的情况下发挥得特别好(或特别差)?

在那些真正具有发现价值的较为复杂的实验中,多手柄老虎机的优势明显超过经典检定[1]。如果您的其中一个变体版本比其他版本的效果优秀很多,那么老虎机会很快找到效果最佳的那支手柄。如果一个或多个变体版本比其他版本的效果差很多,那么它们的权重会下降得很快,这样实验就能更加专注地寻找效果最佳的手柄。

老虎机发挥最不好的情况就是两支手柄的效果几乎相同的实验。在这种情况下,理想的解决方案是两支手柄按照相同的比率累积观察结果,直至实验结束。老虎机会平均陈列这种行为,但在任何给定的实验中,一支手柄会出其不意地更快速地累积观察结果。

值得注意的是;人们之所以进行实验,是因为他们认为自己可以改善现有页面,所以,我们不想过分强调由经典检定假设的“最差案例情节”。

如果效果最佳的那支手柄在实验一开始时并不太“幸运”会怎么样?它能反超吗?

即使某支手柄在实验初期权重减少,它仍然能够反超。有两种原因可能导致某支手柄被不公平地减少权重。要么是这支手柄的效果一反常态地差,要么是另一支手柄的效果一反常态地好(或这两种原因都存在)。如果机遇不公平地眷顾了效果较差的一支手柄,那么这支手柄将会累积更多观察结果,届时我们就会发现它其实并没有我们想象中的那样好,然后它的权重就会减少,而其竞争对手的权重就会增加。

老虎机实验的结果具有统计有效性吗?

有。老虎机采用连续的贝叶斯更新来了解每日的实验结果,其统计有效性的概念与经典检定中所采用的完全不同。经典检定从确定虚无假设开始。例如,“所有版本页的效果都相同”。然后此方法会收集与此假设相关的证据,然后判断是否可以否决此假设。如果您可以否决虚无假设,即说明您发现了“具有统计意义的结果”。

统计意义的存在是为了让您避免 I 类错误。在网站优化中,“I 类错误”是指挑选出来的新版本网页在效果方面与原始网页没有真正的区别。您应尽量避免 I 类错误(是错误就应避免),但在网站优化中,“II 类”错误造成的后果更严重。我们所谓的“II 类”错误是指未能转换至效果更佳的那一支手柄,造成的严重后果是您将失去转化。

贝叶斯更新提出问题:“鉴于我现在知道的内容,这支手柄就是效果最佳的手柄的概率是多少?”假设检定提问:“如果所有‘手柄’的效果相同,那么我看到此结果的概率是多少?”这两个问题都有效,但贝叶斯问题更容易让大多数人理解,并且它会通过利用实验中的实时信息来自然平衡 I 类错误与 II 类错误。

在经典假设检定中,您需要在查看完一定数量的观察结果后才能获得所需的数据,因为它们需要回答的可能性问题太过于复杂。如果您在实验中采用了效果不佳的手柄,经典检定可能会带来沉重的机会成本。所以,如果两种方法均有效,为什么不跳过既复杂、又昂贵,必须等待实验结果的方法,转而使用省钱省时的那一种方法呢?

该内容对您有帮助吗?
您有什么改进建议?