検索
検索をクリア
検索終了
Google アプリ
メインメニュー
true

概要

よくある質問(多腕バンディット)

バンディット テストを実施すると、最適なパターンを必ず特定できますか?

アナリティクスで使用されている多腕バンディット アルゴリズムは、テスト期間が無制限であれば、必ず最適なパターンを割り出せる仕組みになっています [3] [4]。実際には永遠にテストを実施し続けることはできないため、割り出されたパターンが本当に最も高い成果を持っているということを、100% 確実に保証できるわけではありません。しかし、無限のデータを利用して最適なパターンを 100% 確実に割り出せる統計手法は存在しないため、バンディット テストも例外ではないのは当然です。テスト期間に 3 か月という上限を設けているのはこのためです。この期間中に最も成果の高いパターンを割り出すことができなかった場合は、十分な効果を持つパターンがないため、別の角度からサイトのテストを実施した方が有効ということになります。

従来型のテストより常にテスト期間が短くなりますか?

バンディット テストでは、従来型のテストより早く、より低コストで、十分な統計的有意性を持つ結果を導き出すことができますが、偶発的な要因により、テスト期間が予想より長くなる場合もあります。

従来型のテストと比べ、多腕バンディット テストが特に適している(または適していない)のはどのようなタイプのテストですか?

多腕バンディット テストには、従来型のテストと比べ、特に複雑なテストを実施する場合に明確なメリットと効果があります [1]。他のパターンよりも特に成果が高いパターンがある場合、そのパターンは非常に早い段階で割り出されます。また、他よりも特に成果が低いパターンが 1 つ以上ある場合でも、非常に早い段階でそのようなパターンに振り分けられるトラフィック量が減らされるため、最適なパターンの検出にトラフィックを集中できることになります。

逆に、成果にまったく差がない 2 つのパターンでのテストでは、バンディット テストは効果を発揮できません。こうしたケースでは、テスト終了まで、同じ割合で各パターンにトラフィックを振り分けることが最適となります。総体的に見ればバンディット方式でもこうした挙動のテストが実施されますが、偶発的な要因により、あるテストでは早い段階で一方のパターンにトラフィックが集中してしまうといったケースもあります。

重要なのは、ユーザーは既存のページの効果を改善できる見込みがあるという前提に立ってテストを実施するという点です。そのためアナリティクスでは、従来型のテストが適しているこうしたケースについては、あまり重点を置いていません。

偶発的な要因により、最適なパターンがテストの初期段階で本来の成果を発揮できなかった場合でも、正当な結果が導き出されますか?

テストの初期段階であるパターンに振り分けられるトラフィックが低くなった場合でも、正当な結果に収束します。パターンに振り分けられるトラフィックが不当に低くなる理由は 2 つです。そのパターンが本来より低い成果しか発揮できなかったか、別のパターンが本来より高い成果を発揮したかのどちらかです(または両方)。成果が劣るはずのページが運に恵まれ本来より高い成果を発揮すると、そのページに振り分けられるトラフィックが増加していくため、やがて本来の成果がそれほど高くないことが判明します。そうしてトラフィックの量が減っていき、別のページに振り分けられるトラフィックが増加していくこととなります。

バンディット テストの結果は統計的に有意ですか?

バンディット テストでは継続的なベイズ更新によって、日ごとのテスト結果が分析されます。この統計的優位性は、従来型のテストにおける統計的優位性とは考え方が異なります。従来型のテストは、帰無仮説を設定することから始まります。たとえば、「すべてのパターンが等しく効果的」という仮説を立てます。続いて、その仮説に関する証拠を蓄積し、最終的にそれを否定できるかどうか判断します。帰無仮説を否定できたら、最終結果に統計的有意性があると判断できることになります。

統計的な有意性を確保できれば、第一種の過誤を回避することができます。ウェブサイトの最適化という文脈での第 1 種の過誤とは、掲載結果がオリジナルとまったく変わらない新しいパターンを選択してしまうことです。第 1 種の過誤(簡単に言えばエラー)は避ける必要がありますが、この場合なら「第 2 種の過誤」よりもはるかに小さな損失で済みます。第 2 種の過誤とは、高い成果を期待できるパターンに切り替えられないことであり、その場合はせっかくのコンバージョン機会を逃して損失が生じます。

ベイズ更新では、「これまでの情報を踏まえて、このページがベストである確率は?」という質問に対する答えを追求します。一方、仮説検定では、「すべてのパターンが等しく効果的である場合にこの結果が出る確率は?」という問いに対する答えを追求します。両方とも有効な問いですが、ベイズの方が理解しやすい上に、テストから得られた情報を逐次活用することにより第 1 種、第 2 種の過誤が自然と防止されます。

従来の仮説検定では、一定量の観測が行われるまでデータを参照できませんが、それは、そうした過程を経なければ質問が複雑すぎて回答が得られないからです。テストで成果の低いパターンがある場合、従来の仮説検定では、そうしたパターンを間違って選択することにより生じる損失が非常に大きくなります。つまり、どちらも有効なのであれば、テスト結果が出るまで時間のかかる複雑な手法ではなく、時間とコストを節約できる手法を採用した方が効果的です。

この記事は役に立ちましたか?
改善できる点がありましたらお聞かせください。