ベイズ推定

オプティマイズでは、ベイズ推定のアプローチを使用してデータからテスト結果を生成します。以下のヘルプ記事では、ベイズ推定の基本概念、そのメリット、問題点について説明します。

ベイズ推定の基本概念

ベイズの定理

ベイズの定理とは、観察可能なデータを使用して観察不能なものを推定する方法を示す式です。たとえば、オプティマイズを使って、長期的にコンバージョン率が最も高くなる処理を選択する場合、これを確実に知る唯一の方法は、すべてのウェブサイト訪問者一人一人を処理の期間全体にわたって観察することです。ただし、それほどの時間をかけることはテストの目的に反します。代わりに、ユーザーのランダム サンプルを使用して、長期的なコンバージョン率が最も高い処理を推測します。

ベイズの定理により、ユーザーのランダム サンプルからデータを取得し、観測不能なもの(特定の処理のコンバージョン率が最も高いかどうかなど)についての推測を行います。このような観測不能なステートメントのことを仮説と言い、「H」で表します。

オプティマイズではベイズの手法を使って、仮説が正しい可能性はどれほどかをデータを使用して推定します。使用するベイズの定理は次のとおりです。

ベイズの定理

P(H | data) は出力データです。 関数「P()」は「確率」、「|」は「右側が条件」を表しています。したがって、P(H | data) は、観測されたデータを条件として仮説がそのとおりになる確率です。ご自身でベイズ推定を行うには、ベイズの定理の右側の値を理解する必要がありますが、オプティマイズの場合はその必要はありません。関心をお持ちの場合は、トピック123に、さまざまな入門リソースがありますので、ご参照ください。

オプティマイズの仮説

オプティマイズでは、ベイズに基づく手法を使用して、データを条件とした仮説の確率を決定します。オプティマイズで考慮される中心となる仮説は、それぞれの処理が他のすべての処理より優れているかどうか、つまり、どの処理が最善かということです。

オリジナルと 1 つのパターンを使用する A/B テストの場合、オプティマイズでは次の 2 つの仮説が考慮されます。

H1: パターンよりオリジナルの方が優れている

H2: パターンがオリジナルよりも優れている

オプティマイズはベイズの定理を使用して、P(H1 | data) と P(H2 | data)(つまり、オリジナルとパターンがそれぞれ最善である確率)を決定します(オプティマイズ レポートの最善である確率をご覧ください)。さらに多くの処理を扱うテストでは、各処理が他のすべての処理よりも優れているという仮説を立てます。オプティマイズはベイズの定理を使用して、データを条件とするこれらの各仮説が正しい確率(および最善である確率)を決定します。

なお、オリジナルとパターンが引き分けるという仮説はありません。これは、オプティマイズのテストで 2 つの処理が完全に同じになることは不可能であると想定しているためです(その理由は非常に専門的になります)。ただし、こちらで説明するように、オリジナルとパターンに無視できる程度の差しか生じない可能性はあります。

ベイズの定理のその他の用途

ベイズの定理は、仮説の真偽の推定に使用するだけでなく、値の連続範囲を推定するためにも使用できます。たとえば、データを使って次のことを求めることができます。

  • 処理のコンバージョン率が 50% 未満である確率
  • 処理のコンバージョン率が 1~4% に含まれる確率
  • 処理のコンバージョン率が 95% の可能性で含まれる範囲

オプティマイズで計算されるのはこの第 3 の質問で、95% 信用区間と呼ばれます。

オプティマイズにおけるベイズ手法のメリット

重要な質問に対する明確な回答を得る

どの処理を採用するか決定する前に、次の質問を考慮する必要があります。

  • 変更内容はサイトにどの程度の影響を与えたか。
  • 変更内容は顧客にどの程度のメリットを与えたか。
  • 顧客の商品に対する見方に最も大きな改善をもたらしたのはどの変更内容か。

これらの質問(および他の質問)を数値化できれば、答えを得ることができますが、テスト中のランダム サンプルでは、これらの質問に対して 100% 確実な回答を得ることはできません。オプティマイズのベイズ アプローチでは、可能性の高い範囲としての回答を得ることができます。たとえば、「変更内容はサイトにどの程度の影響を与えたか」という質問について考えてみましょう。ユーザーのランダム サンプルでは、この質問に対する回答は 1 つの数値ではなく、「この変更がセッションごとに $0.47~$ 0.57 を獲得する可能性が 95% あります」というものです。

より高い価値を提供する対処を見つける

オプティマイズでは、潜在的な残存価値(PVR)4と呼ばれるものを使用して、テストを継続する理由がほとんどないことをデータが示す場合にテストを終了することがすすめられています。つまり、次のいずれかに該当する場合です。

  1. 1 つの処理が最善であるという確率が高い* 場合、または
  2. ランクの高い処理間の差が無視できる程度**である確率が高い* 場合。

状況 1 では、結果が最も良かった処理を採用することがウェブサイトを最適化するうえで最善の選択である可能性が高いため、テストを継続する理由はほとんどありません。

状況 2 では、どの処理がより優れているかを判断するためにテストを続けることもできますが、上位ランクの処理の差が無視できる程度であると考えられるため、絶対的に最善である処理を見つけることで得られるメリットはごくわずかです。このわずかなメリットを得るためにテストを継続するよりも、そのテストを終了して、効果が大きい可能性のある次のテストを開始する方が効果的です。

潜在的な残存価値を一言でまとめると、オプティマイズでテストが終了し、推奨が行われるのは、Google が推奨する内容が本当に適切な処理よりも劣っている度合いが無視できない水準である確率がわずかしかない場合であるということです。この条件は、後のセクションで別の一般的な条件と比較します。また、次のセクションでは、Google のしきい値を満たしているかどうかを確認(覗き見)する回数に関係なく、この条件で推奨を行うことができることについて説明します。つまり、オプティマイズでは、データにより上記の点が示唆されたらすぐに処理が推奨されます。

*オプティマイズでは、確率が 95% を超えると非常に高いとみなされます。

**オプティマイズでは、相対的な差が 1% 未満だと無視できるとみなされます。

推奨は「複数の比較」または「覗き見」の影響を受けずに行われる

前述のように、ランダム サンプルのみを観察する A/B テストでは、どの処理が最適であるかを 100% の確実性をもって知ることはできません。ある種のエラーは避けられないため、多くの A/B テスト手法ではエラーについて数学的な保証が行われます。たとえば、オプティマイズで推奨が行われるのは、ある処理が最適な処理である可能性が高い場合や、最適でないとされる差が無視できる程度である可能性が高い場合です。別の例として、帰無仮説有意性検定(NHST)を使用する A/B テストツールで、偽陽性の可能性が小さい場合に推奨が行われることがよくあります。ここで、偽陽性とは、「実際には差がなかったのに、処理間に差があるとした」と定義されます。

一連の統計的推定を検討する際に、テスト手法の数学的保証が適用されない場合、「複数の比較問題」が発生します。たとえば、それぞれの結果に偽陽性を持つ可能性がある一連の統計的推定においては、推定の回数が増えると、いずれかの推定結果が偽陽性になる可能性が増大します。これは、同時に複数のパターンをオリジナルと比較した場合に発生することがあります。

同様に、数学的保証を適用せずに、テスト中にテストの結果を何度も確認し、得られた結果に対して行動を起こすと、「覗き見の問題」が発生します。たとえば、結果を繰り返し「覗き見」する中で、その結果から処理間に差があることに気づき、差があると断言したとしても、実は偽陽性を断言しているという可能性が高まります。別の言い方をすれば、データをさらに収集して再度「覗き見」すると、結果は「差あり」から「差なし」に変わる可能性があると言うことです。そうなる理由は、「複数の比較問題」とよく似ています。つまり、「覗き見」するたびに偽陽性の可能性があるため、「覗き見」の回数が増えるにつれて全体的な偽陽性の可能性が増大します。

偽陽性率を小さくすることに重点を置いた A/B テストのアプローチでは、望ましい結果を得るために「複数の比較問題」と「覗き見問題」を考慮に入れる必要がありますが、そうすることで、真陽性を得る可能性まで低くなってしまうことになります。ここでの真陽性とは、「処理間に実際に差がある場合に、処理間に差があると結論付ける」ことを意味します。新陽性を得る可能性が低い場合、データを多くする(ウェブテストの場合は、テストを長くする)と解決できる場合がありますが、そうすることは良くない影響もあるため、結果として良い方に働くのか悪い方に働くのかはわかりません。

オプティマイズでは、「複数の比較」や「覗き見」に対して保証が適用されるため、そのような問題は発生しません。オプティマイズで推奨される処理は、最適な処理である可能性や、最適でないとされる差が無視できる程度である可能性が高くなります。ある処理が最適な処理である可能性が高い、または最適でないとされる差が無視できる程度である可能性が高いと判断されたら推奨が行われるからです。

オプティマイズにおけるベイズ アプローチに対する批判について

偽陽性率

前述のように、オプティマイズでは偽陽性を重視しません。偽陽性に焦点を当てない理由の 1 つは、実際のテストでは偽陽性が決して発生しないと考えられるためです。偽陽性は、「実際には差がなかったのに、処理間に差があるとした」場合に発生しますが、処理には常に差があると考えられます。オプティマイズで問題とするのは、差の大きさや、どちらの処理がより優れているかという点です。一方、オプティマイズは偽陽性に重点を置いていないため、オプティマイズの A/A テストにより 5% の確率のみで処理が推奨されるという可能性はありません。オプティマイズで推奨が行われるのは、その内容が最適でないとされる差が無視できる程度しかないことが確実である場合です。

一方、NHST で行うような偽陽性率を制御する方法は、偽陽性が存在する可能性があり、その影響が大きい場合には適しているかもしれません。たとえば、科学者がある発見を科学的に正しいと宣言した場合、それが正しくないとする可能性をできるだけ小さくしたいと思うでしょう。そうでないと、科学に対する信頼が低下したり専門家としての評判が失われたりする場合があるからです。それに対して、オプティマイズでは、他の種類のエラーと比べて、偽陽性率を重視する理由はほとんどないと考えられています。

結果として、Google の偽陽性率は、これを重視したテストツールよりも高くなる可能性があります。たとえば、有意性のしきい値を 95% に設定した帰無仮説有意性検定(NHST)を使用するテストツールは通常、偽陽性率を最大 5% に制御します(必要に応じて、「複数の比較」問題と「覗き見」問題が考慮済みであると仮定して)。A/A テストで処理間に差が存在しないにもかかわらず、NHST テストツールでは最大 5% の確率で処理が推奨されるという可能性があります。ですから、A/A テストは、NHST テストツールが意図どおりに機能しているかを確認するのに便利な方法です。

一方、オプティマイズは偽陽性に重点を置いていないため、オプティマイズの A/A テストにより 5% の確率のみで処理が推奨されるという可能性はありません。最適でないとされる差が無視できる程度であると確信できる場合、推奨が行われます。A/A テストでは、ある A が他方の A より劣っているという可能性はないわけですから、独自の条件に基づいて推奨が行われます。A/A テストで推奨される処理は、推定改善率と合わせて確認する必要があります。推定改善率は無視してよい程度になる可能性が高いでしょう。

事前確率の選択

ベイズ分析を使用する場合、「事前確率」を定義する必要があります。ベイズの定理の式では、「事前確率」は P(H) です。事前確率は、データが考慮される前に、主観的な確信とその確実性に基づいて推測された確率のことで、データが考慮された後に仮説がそのとおりになる確率である事後確率 P(H | data) とは対照的です。

事前確率を決める方法は、多数あります。たとえば、事前確率は、あるパターンのコンバージョン率として自分が確信している値にすることができます。この場合、この確信を裏付けるには大量のデータが必要です。これらは「情報事前分布」と呼ばれます。一方、事前確率は、パターンのデータがまったくないためにコンバージョン率がほとんどわからないという場合でも設定できます。この場合、テストのデータが事前確率となります。これらは「無情報的事前分布」と呼ばれます。まったく情報がない状態で事前確率を決めるのは不可能だとしても、オプティマイズでは非常に少ない情報で事前確率が選択されます。

事前確率には 2 つの一般的な批判があります。1 つ目は、十分な根拠に基づいて事前確率を判断するには手間がかかることです。ただし、この作業はオプティマイズにより行われますのでご安心ください。2 つ目は、事前確率は、想定の根拠が弱い場合でも、主観的な想定が分析に加えられることです。この点については、すべての分析にはある程度の想定が折り込まれていることを覚えておく必要があります。たとえば、ベイズ分析以外の分析では、「エラー」はゼロを中心に正規分布していると想定しています。同様に、ベイズ分析では、データが取得される前はすべてのコンバージョン率がある値になる可能性が同等であると想定されます。これらの想定はすべて、分析結果にある程度の影響を及ぼします。

帰無仮説有意性検定(NHST)との比較

オプティマイズでは、一般によく使われる手法(特に NHST)は使用しません。このような手法を使い慣れている場合は、オプティマイズの結果を NHST の結果と比較したいと思うかもしれませんが、そうすることはすすめられていません。それは、オプティマイズの結果が NHST の結果と同じではないためです(NHST アプローチを採用していない理由の一部はこちらで説明しています)。このセクションでは、オプティマイズが提供する結果を、馴染みのある NHST の用語と比較して説明します。

統計的有意性と p 値

NHST の目的は、p 値を使用して結果の統計的有意性を判断することです。NHST では、最初のステップの 1 つとして有意性のしきい値を選択します。p 値がこのしきい値(多くの場合 0.05)を下回っている場合、結果は「統計的に有意」であると言えます。または、しきい値が 0.05 の場合「95% で有意」と表現されます。

統計的有意性に関してよくある誤解は、パターンがオリジナルよりも優れている確率を表しているということです5。ですから、NHST 手法を使用して、95% 統計的有意性のしきい値でパターンがオリジナルよりも優れていると言うテスト結果の場合、そのパターンがオリジナルを上回る確率は 95% であると一般には言えません。むしろ、実際には処理間に差がないのにもかかわらず差があると結論付ける確率は、最大で 5% であると言えます。両者の違いはわずかかもしれませんが、意味はあります6

オプティマイズにおけるベイズに基づく手法では、p 値の計算や統計的有意性の判断は行われません。代わりに、いくつかの質問に直接に答える解釈可能な確率を計算します。たとえば、95% はオリジナルを上回る確率のことであると額面どおりに受け取れます。つまり、このパターンがオリジナルより優れている確率を表しています。それ以上の解釈は必要ありません。

信頼区間

オプティマイズは、「信頼区間」の代わりに「信用区間」を提供します。「信頼区間」でよくある誤解は、テスト目標の値が存在する可能性のある範囲についての確率に言及しているということです7。これは、信頼区間に関しては誤解ですが、オプティマイズの信用区間については正確に表しています。つまり、信用区間は、テスト目標の値が存在する可能性のある範囲と考えることができます。

引用

[1] Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian data analysis. CRC press.

[2] Kruschke, J. (2014). Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan. Academic Press.

[3] McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press.

[4] Scott, S. L. (2015). Multi‐armed bandit experiments in the online service economy. Applied Stochastic Models in Business and Industry, 31(1), 37-45.

[5] McShane, B. B., & Gal, D. (2017). Statistical significance and the dichotomization of evidence. Journal of the American Statistical Association, 112(519), 885-895.

[6] Nickerson, R. S. (2000). Null hypothesis significance testing: a review of an old and continuing controversy. Psychological methods, 5(2), 241.

[7] Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E. J. (2014). Robust misinterpretation of confidence intervals. Psychonomic bulletin & review, 21(5), 1157-1164.

この情報は役に立ちましたか?
改善できる点がありましたらお聞かせください。