Bayessche Inferenz

In Optimize wird ein bayesscher Inferenzansatz verwendet, um auf Grundlage der Daten Testergebnisse zu generieren. Der folgende Hilfeartikel bietet eine Einführung in die bayessche Inferenz und stellt auch ihre Stärken und Schwächen vor.

Bayessche Inferenz – Einführung

Bayes-Theorem

Das Bayes-Theorem (auch "Satz von Bayes" genannt) ist eine Gleichung, mit deren Hilfe sich anhand von erfassbaren Daten Rückschlüsse auf nicht beobachtbare Ergebnisse ziehen lassen. Beispielsweise möchten Optimize-Nutzer häufig die Testgruppe mit der langfristig betrachtet höchsten Conversion-Rate auswählen. Welche Gruppe das ist, lässt sich nur mit Sicherheit bestimmen, wenn man sämtliche Websitebesucher über die gesamte Laufzeit der Testgruppe beobachtet. So lange zu warten, würde jedoch dem Zweck eines Tests widersprechen. Stattdessen wird anhand einer zufälligen Stichprobe von Nutzern geschätzt, bei welcher Testgruppe die Conversion-Rate langfristig am höchsten ist.

Mithilfe des Bayes-Theorems können wir anhand von Daten aus einer zufälligen Stichprobe von Nutzern Schätzungen für nicht beobachtbare Ereignisse erstellen – etwa dazu, ob eine Testgruppe die höchste Conversion-Rate aller Gruppen hat. Eine solche nicht beobachtbare Aussage ist eine Hypothese und wird durch den Buchstaben H ausgedrückt.

Bei der in Optimize eingesetzten Bayes-Methode wird mit dem Bayes-Theorem anhand von Daten ermittelt, wie wahrscheinlich eine Hypothese richtig ist:

Bayes-Theorem

Die Ausgabe dieser Formel ist P(H | Daten). Die Funktion P() steht für die Wahrscheinlichkeit und das Pipe-Zeichen (|) drückt aus, dass etwas als gegeben gilt. Somit lässt sich mit P(H | Daten) bestimmen, wie wahrscheinlich es ist, dass eine Hypothese richtig ist. Beim Bayes-Theorem muss man den rechten Teil verstehen, um seine eigene bayessche Inferenz durchzuführen. Es ist jedoch nicht erforderlich, dass man die Ausgabe von Optimize interpretieren kann. Falls Sie weitere Informationen hierzu wünschen, können Sie sich die folgenden Ressourcen für Einsteiger ansehen: 1, 2 und 3.

Die Hypothesen von Optimize

In Optimize steht eine Bayes-Methode bereit, mit der sich die Wahrscheinlichkeit einer Hypothese anhand von Daten bestimmen lässt. Bei den zentralen Hypothesen, die in Optimize untersucht werden, geht es darum, ob eine der Testgruppen besser ist als alle anderen. Einfach ausgedrückt bedeutet das, dass in Optimize die beste Testgruppe gesucht wird.

Bei einem A/B-Test mit einem Original (ursprüngliche Variante) und einer einzelnen Variante werden in Optimize zwei Hypothesen untersucht:

H1: Das Original ist besser als die Variante.

H2: Die Variante ist besser als das Original.

In Optimize wird mithilfe des Bayes-Theorems die Wahrscheinlichkeit bestimmt, dass das Original bzw. die Variante die bessere Testgruppe ist: P(H1 | Daten) und P(H2 | Daten). Weitere Informationen hierzu finden Sie in Optimize unter Wahrscheinlichkeit, die beste Variante zu sein. Bei einem Test mit mehr Testgruppen gibt es für jede Gruppe eine eigene Hypothese, um zu bestimmen, ob sie besser ist als alle anderen. In Optimize wird anhand des Bayes-Theorems und der vorliegenden Daten die Wahrscheinlichkeit jeder dieser Hypothesen ermittelt. Man bezeichnet dies auch als die Wahrscheinlichkeit, die beste Variante zu sein.

Es gibt keine Hypothese dafür, dass Original und Variante gleich gut sind. Das liegt daran, dass wir bei unserer Methode davon ausgehen, dass zwei Testgruppen bei einem Optimize-Test nicht genau gleich sein können. Der Grund hierfür ist ziemlich kompliziert. Es ist jedoch möglich, dass der Unterschied zwischen dem Original und der Variante vernachlässigbar ist. Weitere Informationen dazu finden Sie hier.

Andere Einsatzzwecke des Bayes-Theorems

Mit dem Bayes-Theorem lässt sich nicht nur untersuchen, ob Hypothesen richtig oder falsch sind, sondern man kann damit auch Rückschlüsse auf kontinuierliche Wertebereiche ziehen. Beispielsweise können wir anhand von Daten Fragen wie die folgenden beantworten:

  • Wie hoch ist die Wahrscheinlichkeit, dass die Conversion-Rate der Testgruppe unter 50 % liegt?
  • Wie wahrscheinlich ist es, dass die Conversion-Rate der Testgruppe zwischen 1 % und 4 % beträgt?
  • In welchem Bereich liegt die Conversion-Rate der Testgruppe mit einer Wahrscheinlichkeit von 95 %?

Die Antwort auf die dritte Frage wird in Optimize ermittelt. Man spricht hierbei vom Glaubwürdigkeitsintervall von 95 %.

Vorteile der Bayes-Methode in Optimize

Klare Antworten auf wichtige Fragen erhalten

Diese und weitere Fragen sollten Sie beantworten, bevor Sie sich für eine Testgruppe entscheiden:

  • Wie stark hat sich eine Änderung auf die Website ausgewirkt?
  • Um wie viel hat sich die Zufriedenheit meiner Kunden durch die Änderung erhöht?
  • Mit welcher Änderung kann ich die größte Verbesserung bei der Wahrnehmung meines Produkts durch Kunden erzielen?

Solange sich die Antworten auf diese Fragen – und die vielen anderen, die man stellen könnte – in Zahlen ausdrücken lassen, können sie auch beantwortet werden. Mit einer zufälligen Stichprobe während eines Tests lässt sich jedoch keine Antwort mit absoluter Gewissheit finden. Stattdessen erhalten Sie mit der Bayes-Methode eine Reihe von Antworten mit hoher Wahrscheinlichkeit. Nehmen wir beispielsweise einmal an, Sie möchten diese Frage beantworten: "Welche Auswirkungen hat eine Änderung auf meiner Website?" Mit einer zufälligen Stichprobe von Nutzern finden Sie keine bestimmte Antwort auf diese Frage, sondern erhalten eher folgendes Ergebnis: "Es besteht eine Wahrscheinlichkeit von 95 %, dass diese Änderung zu einer Steigerung zwischen 0,47 $ und 0,57 $ pro Sitzung führt."

Testgruppen finden, die einen höheren Wert bieten

In Optimize wird auf der Grundlage des sogenannten möglichen verbleibenden Werts (Potential Value Remaining, PVR)4 empfohlen, einen Test zu beenden, wenn die Daten darauf hindeuten, dass es keinen Grund zur Fortführung des Tests gibt. Mithilfe des möglichen verbleibenden Werts wird empfohlen, einen Test zu beenden, wenn einer dieser Fälle eintritt:

  1. Die Wahrscheinlichkeit*, dass eine Testgruppe die beste ist, ist hoch.
  2. Die Wahrscheinlichkeit*, dass zwischen den am besten eingestuften Testgruppen ein vernachlässigbarer Unterschied** besteht, ist hoch.

Im ersten Fall gibt es keinen Grund, den Test fortzusetzen, da die beste Testgruppe sehr wahrscheinlich eine gute Wahl zur Optimierung der Website ist.

Im zweiten Fall könnte man den Test weiterhin laufen lassen, um die bessere Testgruppe zu ermitteln. Das System ist aber überzeugt davon, dass der Unterschied bei den am besten bewerteten Testgruppen vernachlässigbar ist und daher mit der absolut besten Gruppe nur geringfügig bessere Ergebnisse erzielt werden. Die zusätzliche Zeit, die ein Test ausgeführt werden muss, um diesen kleinen Vorteil zu ermitteln, kann man besser nutzen, um einen neuen, potenziell wirkungsvollen Test zu starten. Daher würde es sich lohnen, den aktiven Test zu beenden.

Man kann den möglichen verbleibenden Wert so zusammenfassen: In Optimize wird eine Empfehlung abgegeben, wenn für eine Testgruppe nur eine geringere Wahrscheinlichkeit besteht, dass sie mehr als in einem vernachlässigbaren Maß schlechter ist als die optimale Gruppe. Dieses Kriterium wird weiter unten in diesem Dokument mit einem anderen gängigen Kriterium verglichen. Im nächsten Abschnitt sehen wir außerdem, dass wir mit diesem Kriterium unabhängig davon, wie oft wir auf die Überschreitung des Grenzwerts prüfen, Empfehlungen erhalten können. Deshalb kann eine Testgruppe empfohlen werden, sobald die Daten darauf schließen lassen.

* Bei Optimize gilt eine Wahrscheinlichkeit von mehr als 95 % als hoch.

** Bei Optimize wird ein relativer Unterschied von weniger als 1 % als vernachlässigbar betrachtet.

Mehrfachvergleiche und das Prüfen der aktuellen Werte wirken sich nicht auf die Empfehlungen aus

Wie bereits erwähnt wurde, lässt sich mit einem A/B-Test, bei dem nur eine zufällige Stichprobe untersucht wird, nicht mit Sicherheit sagen, welche Testgruppe die beste ist. Da sich eine gewisse Fehlerquote nicht vermeiden lässt, gibt es bei vielen A/B-Testmethoden eine mathematische Zusicherung für diese Quote. Beispielsweise wird in Optimize eine Empfehlung gegeben, wenn für eine Testgruppe eine hohe Wahrscheinlichkeit besteht, dass sie die beste oder nur um einen vernachlässigbaren Wert schlechter ist. Ein weiteres Beispiel: A/B-Testtools, die auf Nullhypothesen-Signifikanztests (NHST) basieren, geben häufig eine Empfehlung, wenn die Wahrscheinlichkeit eines falsch positiven Ergebnisses gering ist. In diesem Fall gilt ein Ergebnis als falsch positiv, wenn ein Unterschied zwischen Testgruppen ermittelt wird, der in Wirklichkeit nicht vorhanden ist.

Wenn die mathematische Zusicherung bei einer Testmethode nicht gilt, wenn man mehrere statistische Inferenzen untersucht, wird dies als "Alphafehler-Kumulierung" bezeichnet. Falls beispielsweise bei einer Gruppe von statistischen Inferenzen jede Inferenz zu einem falsch positiven Ergebnis führen kann, steigt die Wahrscheinlichkeit, dass eine der Inferenzen dies tatsächlich tut, mit der Anzahl der Inferenzen. Dieser Fall kann eintreten, wenn mehrere Varianten gleichzeitig mit dem Original verglichen werden.

Außerdem gibt es ein Prüfproblem. Das heißt, die mathematische Zusicherung gilt nicht, wenn man die Werte des Tests mehrmals überprüft, während er noch läuft, und auf ihrer Grundlage Änderungen vornimmt. Ein Beispiel: Man prüft die Werte, gelangt dabei zu der Schlussfolgerung, dass Unterschiede zwischen verschiedenen Testgruppen besteht, und behauptet dann, dass es einen Unterschied gibt. Dadurch erhöht sich die Wahrscheinlichkeit von falsch positiven Ergebnissen. Anders gesagt: Wenn mehr Daten erfasst werden und man sich die Werte noch einmal ansieht, könnte sich das Ergebnis ändern – von "Unterschied" zu "Kein Unterschied". Der Grund hierfür ist sehr ähnlich wie bei der Alphafehler-Kumulierung. Bei jeder Prüfung der aktuellen Werte besteht die Gefahr eines falsch positiven Ergebnisses. Je öfter die Werte geprüft werden, desto höher ist die Wahrscheinlichkeit eines falsch positiven Ergebnisses.

Bei A/B-Tests, bei denen der Schwerpunkt auf der Verringerung der Anzahl von falsch positiven Ergebnissen niedrig gehalten werden soll, müssen die Alphafehler-Kumulierung und das Prüfproblem berücksichtigt werden, damit die Zusicherung erhalten bleibt. Hierzu ist es normalerweise erforderlich, Einbußen bei der Wahrscheinlichkeit eines richtig positiven Ergebnisses hinzunehmen. Man spricht hier von einem richtig positiven Ergebnis, wenn ein Unterschied zwischen Testgruppen erkannt wird, der tatsächlich existiert. Die geringere Wahrscheinlichkeit eines richtig positiven Ergebnisses lässt sich dadurch ausgleichen, dass mehr Daten benötigt werden. Im Fall von Webtests bedeutet das, dass diese länger aktiv sein müssen. Das ist ein negativer Nebeneffekt und es ist nicht klar, was schlimmer ist – die Medizin oder die Krankheit.

In Optimize gibt es weder die Alphafehler-Kumulierung noch das Prüfproblem, da die Zusicherung auch dann gilt, wenn mehrere Vergleiche durchgeführt oder auf der Grundlage von Zwischenergebnissen Änderungen vorgenommen werden. In Optimize wird eine Empfehlung gegeben, wenn für eine Testgruppe eine hohe Wahrscheinlichkeit besteht, dass sie die beste oder nur um einen vernachlässigbaren Wert schlechter ist. Dies gilt unabhängig von der Anzahl der Vergleiche und davon, wie oft wir den Test auf die Überschreitung des Grenzwerts prüfen.

Kritik an der Bayes-Methode von Optimize

Rate falsch positiver Ergebnisse

Wie bereits oben erwähnt wurde, stehen falsch positive Ergebnisse bei Optimize nicht im Vordergrund. Ein Grund dafür ist, dass wir davon ausgehen, dass bei echten Tests keine falsch positiven Ergebnisse auftreten. Ein falsch positives Ergebnis liegt vor, wenn wir einen Unterschied zwischen Testgruppen feststellen, der nicht vorhanden war. Wir sind jedoch der Auffassung, dass es immer einen Unterschied zwischen den einzelnen Testgruppen gibt. Es kommt nur darauf an, wie groß dieser Unterschied ist und welche Testgruppe besser ist. Statt den Schwerpunkt auf falsch positive Ergebnisse zu legen, gibt Optimize eine Empfehlung, wenn für eine Testgruppe eine hohe Wahrscheinlichkeit besteht, dass sie die beste oder nur um einen vernachlässigbaren Wert suboptimal ist. Wir sind der Meinung, dass sich Empfehlungen, die auf den wahrscheinlichen Ergebnissen der verschiedenen Testgruppen basieren, besser für die Websiteoptimierung eignen. Wenn Sie die Rate falsch positiver Ergebnisse steuern (wie bei Nullhypothesen-Signifikanztests), ergibt es vielleicht Sinn, dass es ein falsch positives Ergebnis mit größeren Konsequenzen gibt. Wenn Forscher beispielsweise Erkenntnisse als wissenschaftlich nachgewiesen erklären, möchten sie, dass ein möglichst geringer Teil davon falsch ist. Anderenfalls besteht das Risiko, den Glauben an die Wissenschaft zu verlieren oder den professionellen Ruf aufs Spiel zu setzen. Für Optimize gilt jedoch das Prinzip, dass es bei geschäftlichen Entscheidungen wenig Gründe dafür gibt, die Rate der falsch positiven Ergebnisse gegenüber anderen Arten von Fehlern hervorzuheben.

Dadurch ist die Rate der falsch positiven Ergebnisse wahrscheinlich höher als bei Testtools, die den Schwerpunkt darauf legen. So wird beispielsweise bei Testtools, die auf Nullhypothesen-Signifikanztests (NHST) mit einem Signifikanzschwellenwert von 95 % basieren, oft die Rate der falsch positiven Ergebnisse bei maximal 5 % gehalten. Dabei wird davon ausgegangen, dass die Alphafehler-Kumulierung und Prüfprobleme bei Bedarf berücksichtigt werden. Bei einem A/A-Test, bei dem es keine Unterschiede zwischen den Testgruppen gibt, wird erwartet, dass ein NHST-Testtool in maximal 5 % der Fälle eine Testgruppe empfiehlt. Daher eignen sich A/A-Tests gut, um zu überprüfen, ob ein NHST-Testtool wie erwartet funktioniert.

In Optimize stehen falsch positive Ergebnisse hingegen nicht im Vordergrund. Daher sollte nicht zu erwarten sein, dass nur bei 5 % der A/A-Tests in Optimize eine Testgruppe empfohlen wird. In Optimize wird eine Empfehlung ausgesprochen, wenn sich das System sicher ist, dass eine Testgruppe nur um einen vernachlässigbaren Wert suboptimal ist. Bei A/A-Tests gibt Optimize nach seinen eigenen Kriterien eine gute Empfehlung aus, da die Suboptimalität einer A-Variante gegenüber der anderen A-Variante nicht vorhanden ist. Die bei einem A/A-Test von Optimize empfohlene Testgruppe muss zusammen mit der modellierten Verbesserung überprüft werden. Dabei werden Sie wahrscheinlich feststellen, dass die modellierte Verbesserung vernachlässigbar ist.

A-priori-Wahrscheinlichkeiten auswählen

Für das Bayes-Theorem müssen A-priori-Wahrscheinlichkeiten festgelegt werden. In der Gleichung für das Bayes-Theorem wird die A-priori-Wahrscheinlichkeit durch P(H) ausgedrückt. Mit den A-priori-Wahrscheinlichkeiten legt der Tester seine Annahmen und die Zuversicht fest, dass diese Annahmen richtig sind – bevor Daten berücksichtigt werden. Die A-priori- wird mit der A-posteriori-Wahrscheinlichkeit,P(H | Daten), verglichen. Das ist die Wahrscheinlichkeit, dass eine Hypothese nach der Berücksichtigung von Daten wahr ist.

Es gibt viele Möglichkeiten, eine A-priori-Wahrscheinlichkeit festzulegen. Beispielsweise lässt sich mit einer A-priori-Wahrscheinlichkeit eine hohe Zuversicht in Bezug auf die Conversion-Rate einer Variante ausdrücken. In diesem Fall ist eine große Menge an Daten erforderlich, um die Annahme zu widerlegen. Diese Daten werden als "informative A-priori-Wahrscheinlichkeiten" bezeichnet. Mit einer A-priori-Wahrscheinlichkeit kann auch zum Ausdruck gebracht werden, dass man ohne Daten keine gute Vorstellung davon hat, wie hoch die Conversion-Rate einer Variante ist. In diesem Fall sprechen die Daten beim Test für sich. Diese Daten werden als "uninformative A-priori-Wahrscheinlichkeiten" bezeichnet. Auch wenn eine A-priori-Wahrscheinlichkeit nicht völlig uninformativ sein kann, werden diese Wahrscheinlichkeiten in Optimize so ausgewählt, dass sie relativ uninformativ sind.

Es gibt zwei häufige Vorbehalte gegenüber A-priori-Wahrscheinlichkeiten. Der erste Vorbehalt ist, dass die Wahl einer gut begründeten A-priori-Wahrscheinlichkeit recht aufwendig sein kann. Die gute Nachricht: Optimize kann das für Sie erledigen. Der zweite Vorbehalt ist, dass durch eine A-priori-Wahrscheinlichkeit subjektive Annahmen in die Analyse einbezogen werden, auch wenn es unbegründete Annahmen sein können. Daher weisen wir darauf hin, dass bei jeder Analyse Annahmen getroffen werden müssen. Beispielsweise wird bei einer nicht auf der Bayes-Methode basierenden Analyse davon ausgegangen, dass "Fehler" eine normale Verteilung um null herum aufweist. Ebenso kann bei Verwendung der Bayes-Methode angenommen werden, dass alle Conversion-Raten gleich wahrscheinlich sind, bevor Daten ausgewertet werden. All diese Annahmen wirken sich auch auf die Analyseergebnisse aus.

Vergleiche mit Nullhypothesen-Signifikanztests (NHST)

In Optimize werden nicht die Methoden verwendet, mit denen Sie vielleicht bereits vertraut sind, insbesondere Nullhypothesen-Signifikanztests (Null Hypothesis Significance Testing, NHST). Wenn Sie diese Begriffe kennen, ist es unter Umständen verlockend, die Ergebnisse von Optimize mit NHST-Ergebnissen zu vergleichen. Das wird jedoch nicht empfohlen, da sich die Optimize-Ergebnisse von NHST-Ergebnissen unterscheiden. Einige der Gründe, warum Optimize-Analysen nicht auf NHST basieren, werden hier beschrieben. In diesem Abschnitt wird erläutert, welche Ausgaben Sie mit Optimize erhalten und welchen Bezug diese zu einigen der NHST-Begriffe haben, die Sie vielleicht kennen.

Statistische Signifikanz und p-Werte

Bei NHST geht es darum, mithilfe eines p-Werts die statistische Relevanz eines Ergebnisses zu ermitteln. Einer der ersten Schritte bei NHST ist, einen Signifikanzschwellenwert auszuwählen. Wenn ein p-Wert unter diesem Grenzwert liegt, hat das Ergebnis statistische Signifikanz. Dieser Grenzwert wird häufig auf 0,05 festgelegt, sodass man auch von einer "Signifikanz bei 95 %" spricht.

Es ist eine weit verbreitete Fehlinterpretation, dass die statistische Signifikanz die Wahrscheinlichkeit angibt, mit der eine Variante die Leistung des Originals übertrifft.5 Wenn also ein NHST ergibt, dass die Leistung der Variante bei einem Grenzwert von 95 % für die statistische Signifikanz über der des Originals liegt, kann man im Allgemeinen nicht sagen, dass eine Wahrscheinlichkeit von 95 % besteht, dass die Variante das Original übertrifft. Vielmehr bedeutet dies, dass die Wahrscheinlichkeit, einen Unterschied zwischen den Testgruppen zu erkennen (obwohl es keinen Unterschied gibt), bei maximal 5 % liegt. Dieser Unterschied ist zwar klein, aber wichtig.6

Bei der Bayes-Methode von Optimize werden keine p-Werte berechnet und keine statistische Signifikanz ermittelt. Stattdessen berechnen wir auswertbare Wahrscheinlichkeiten, die einige Ihrer Fragen direkt beantworten. Beispielsweise ist eine Wahrscheinlichkeit von 95 %, das Original zu übertreffen, genau das, was man vermutet: Die Wahrscheinlichkeit, dass diese Variante besser ist als das Original. Es ist also keine zusätzliche Interpretation erforderlich.

Konfidenzintervall

In Optimize gibt es keine Konfidenzintervalle, sondern Glaubwürdigkeitsintervalle. Eine weit verbreitete Fehlinterpretation ist, dass Konfidenzintervalle die Wahrscheinlichkeit eines Bereichs von wahrscheinlichen Werten für das Testziel ausdrücken.7 Das stimmt nicht. Doch diese Definition trifft auf das Glaubwürdigkeitsintervall von Optimize genau zu. Anders ausgedrückt kann man sich ein Glaubwürdigkeitsintervall als einen Bereich wahrscheinlicher Werte für das Testziel vorstellen.

Quellenangaben

[1] Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013); "Bayesian Data Analysis" (CRC Press)

[2] Kruschke, J. (2014); "Doing Bayesian data analysis: A tutorial with R, JAGS, and Stan." (Academic Press)

[3] McElreath, R. (2020); "Statistical rethinking: A Bayesian course with examples in R and Stan." (CRC Press)

[4] Scott, S. L. (2015); "Multi‐armed bandit experiments in the online service economy." (Applied Stochastic Models in Business and Industry, 31(1), 37–45)

[5] McShane, B. B., & Gal, D. (2017); "Statistical Significance and the Dichotomization of Evidence" (Journal of the American Statistical Association, 112(519), 885–895)

[6] Nickerson, R. S. (2000); "Null hypothesis significance testing: a review of an old and continuing controversy." (Psychological methods, 5(2), 241)

[7] Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E. J. (2014); "Robust misinterpretation of confidence intervals." (Psychonomic Bulletin & Review, 21(5), 1157–1164)

War das hilfreich?
Wie können wir die Seite verbessern?