テストの結果

この記事の内容:

「ベースラインを上回る確率」とは何ですか?信頼区間と同じ意味ですか?

同じ意味ではありませんが、同じように使うことが可能です。ベースラインを上回る確率がもたらす情報は、信頼区間が提供してくれるとほとんどの人が思っている、またはそうであると望んでいる内容とかなり一致しています。信頼区間(1 - p 値)を直観的に理解できる人はあまりいませんが、ベースラインを上回る確率は文字通りの意味です。具体的に言うと、パターンのパフォーマンスがオリジナルを上回る確率のことです。ベースラインを上回る確率が 95% に達してからパターンを展開するか、間違った判断となるリスクを受け入れられる場合は早期に展開することが可能です。詳しくは p 値の解釈の問題をご覧ください。

「最善である確率」とは何ですか?

最善である確率は、どのパターンのパフォーマンスが総合的に最も高くなるかを示します。これは文字通りの意味であり、余計な解釈は不要です。頻度論的環境で同じ情報を得るには、不正確な内容にならないように、ボンフェローニの補正(多重比較を参照)など追加作業を行う必要があります。

テストの結果を判定するタイミングはどのように決めていますか?

現在、レポートページの上部にステータス メッセージを表示するタイミングは、次のようなルールに従って決めています。

  • テストの有効性を確保するため、トラフィックが毎日あることを確認します。
  • テストが開始されてから 2 週間は待ちます。たとえば、デジタル プロパティの定期的にアクセスされるセクションを対象としたテストの場合は、2 週間あれば、平日と週末のほか、週に 1 回は起こりそうなその他のイベントも含めてバランスの取れたデータを集めることができます。ただし、2 週間は最低限であり、必要に応じて延長することも可能です。おすすめはしませんが、トラフィックの質が今のまま変わらないと思われる場合は、もっと早めに終わらせることもできます。
  • 潜在的な残存価値という指標を確認します。統計学の用語で言うと「リグレット」ですが、潜在的損失または潜在的機会費用と捉えることもできます。この指標は、今のところオプティマイズの管理画面では確認できませんが、将来的には表示される可能性があります。この指標は、コンバージョン率や収益など特定の指標について、現在のリーダーと比べてあとどのくらい改善できる可能性があるかを示すものです。たとえば、収益の目標を設定している場合なら、この指標に基づいて次のように述べることもできます。「パターンの 1 つは現在のリーダーを 200 円上回る可能性を残しています。テストを継続すれば、その 200 円を失うリスクを低減できるかもしれません。」通常、その可能性はデータが蓄積され、結果の確度が高まるにつれ 0 に近づきますが、テストのトラフィックの動きに変化があれば、高くなることもあります。現在は、最も高いコンバージョン率を 1% 以上改善できる見込みがないと判断した時点で、テストの結果を判定しています。

リーダーが決まったことをどのように判断していますか?

上記の条件が満たされた時点で、最善である確率が最も高いパターンを特定します。そのパターンがオリジナルのパフォーマンスを 95% 以上の確率で上回る場合は、リーダーとして提示します。

値の除算で求めたコンバージョン率の中央値が、オプティマイズの結果と同じにならないのはなぜですか?

オプティマイズでは、時間、ユーザーの状況、結果の一貫性などの要素を考慮に入れる高度なモデルを使用します。値の除算だけでは、そうしたすべての要素に対応することはできません。各種の要素を考慮に入れるのは、将来的に各パターンのパフォーマンスがどのように変動するか正確にモデル化するためです。そうすることで、時間が経ってもテスト結果を有効に活用できるようになります。

オプティマイズにはコンバージョン率の値がいくつか表示されますが、それぞれ何を意味していますか?

オプティマイズでは、モデル化された複数の値が表示されます。たとえば、実際のコンバージョン率が 95% の確率で当てはまる範囲などが表示されます。最下部のカードに表示されたそうした値にカーソルを合わせると、中央値や 50% の範囲も表示されます。通常、それらの範囲は、テストが進行してデータが蓄積されるにつれ狭まっていきます。コンバージョン率の範囲の重なる部分が小さくなるに従って、パフォーマンスの高いパターンの最善である確率が高くなっていきます。この進捗状況は、レポートページの下部にある時系列グラフで確認できます。同じ下部のカードの行にも範囲は表示されます。

オプティマイズで「改善率」の範囲が表示されるのはなぜですか?そうしたツールはあまりないようです。

そのはずです。オプティマイズでは、オリジナルを基準に各パターンでどのくらいのパフォーマンス改善を見込めるか、範囲で表します。テストの方法とは関係なく、そうした改善率には一定の幅があるものです。そうした幅を示さないツールは情報を単純化しすぎであり、詳しい状況を把握できません。表示される範囲は実際の改善率が 95% の確率で当てはまる範囲であり、条件が変わらなければこの範囲内でパフォーマンスが改善します。最後のカードの数値にカーソルを合わせると、中央値と 50% の範囲も表示されます。

適切なテスト期間を確認する方法はありますか?

このアプローチはテストの条件に依存するところがあるため、条件が変わればテストの期間も変わってきます。たとえば、コンバージョン率の推移に一貫性があれば、結果を早期に確認できます。しかし、コンバージョン率が大きく変動する場合は、さまざまな影響要因をモデル化するために時間がかかります。テスト期間を予測できるツールは、パフォーマンスの変動や経時変化がないことを前提としています。実際のテストで、そのようなことは滅多にありません。また、平日や週末などトラフィックの周期的な変化に対応し、親近効果やその他の通常とは異なる変化も均すことができるように、テストは最低でも 2 週間実施することをおすすめします。

ユーザーではなくセッション ベースで測定を行うのはなぜですか?

テストが異なれば、極めて詳細なものから粗いものまでアプローチも異なるものが必要となります。ページビュー数を最大化したいサイト運営者は、セッションあたりのページビュー数に基づく目標を設定して最適化を図るでしょう。一方、新しい顧客を獲得したい e コマース プロバイダなら、初めての決済に着目し、「コンバージョンに至ったユーザー数」に基づく目標を掲げて最適化を行うはずです。こうした例の他にも、さまざまなケースが考えられます。

また、測定方法にはそれぞれの特徴があり、統計的な影響を適切に測定したいと思っても、どれを採用すべきか判断は難しいものがあります。詳細な測定では、前後関係を正確に把握し、日常的に起こっている可能性のある事象を詳しく分析することが可能です。逆に粗めの測定では、そこまでの分析は行いません。

オプティマイズに関しては、もっと有用性の高い優れた結果を提供できるように、テストの評価方法の研究を継続的に行っています。オプティマイズのセッション ベースのアプローチは、さまざまな選択肢やトレードオフの間でうまくバランスを取ることを目指しています。このため、他のもっと粗めのアプローチと同様、テスト結果はシンプルですが、パフォーマンスの日々の変動を詳しく把握できるようになっています。

この記事は、オプティマイズの統計と方法論に関するよくある質問をまとめたものです。この件に関するよくある質問は、次の記事でもご覧いただけます。

この情報は役に立ちましたか?
改善できる点がありましたらお聞かせください。