Erweiterte Konzepte

Themen in diesem Artikel:

Ich habe gehört, bayessche Anfangswahrscheinlichkeiten sind in Verbindung mit A/B-Tests riskant. Gehen Sie davon aus, dass eine bestimmte Variante gewinnt?

Nein. Dies ist eine gängige Fehlmeinung. Hinsichtlich Gewinnern und Conversion-Raten sind wir bemüht, Wahrscheinlichkeitswerte ohne Aussagekraft zu verwenden, die die Testergebnisse möglichst wenig beeinflussen.

Hin und wieder verwenden wir auch Wahrscheinlichkeitswerte mit Aussagekraft. Dies hat jedoch mehr damit zu tun, wie schnell die Ergebnisse einer Variante einander angeglichen werden, da wir so solide Ergebnisse für Tests mit geringem Traffic erzielen.

Was ist eine bayessche Anfangswahrscheinlichkeit?

Bayessche Anfangswahrscheinlichkeiten sind modellierte Überzeugungen unserer Erwartungen, wie eine Variante oder ein Test ausgehen wird. Sobald Daten eingehen, wird die Anfangswahrscheinlichkeit mit den Daten zu einer Folgewahrscheinlichkeit, dem Ergebnis, zusammengefasst. Je mehr Daten eingehen, desto mehr ist die Anfangswahrscheinlichkeit "überholt", bis sie kaum noch eine Rolle spielt. Für Optimize verwenden wir unterschiedliche Anfangswahrscheinlichkeiten. Je mehr Daten eingehen, desto unwichtiger wird diese Anfangswahrscheinlichkeit.

Trotz ihres Namens basieren Anfangswahrscheinlichkeiten nicht immer auf bereits vorliegenden Daten. Sie werden nur als logische Eingabe für das Modell verwendet.

Viele der von uns verwendeten Anfangswahrscheinlichkeiten sind ohne Aussagekraft, d. h. sie beeinflussen das Endergebnis kaum. Anfangswahrscheinlichkeiten ohne Aussagekraft werden beispielsweise für Conversion-Raten verwendet, da wir nicht wissen können, welche Leistung eine neue Variante erzielt, bevor entsprechende Daten vorliegen.

Wir verwenden jedoch auch Wahrscheinlichkeiten mit mehr Aussagekraft, beispielsweise für unsere hierarchischen Modelle. Hier werden sie bei Tests an Daten mit konsistenter Leistung eingesetzt, um schneller Ergebnisse zu erzielen. Wenn die Daten eines Tests nicht konsistent sind, spielt die Anfangswahrscheinlichkeit aber natürlich bald nur noch eine untergeordnete Rolle.

Der Begriff "Anfangswahrscheinlichkeit" lässt möglicherweise darauf schließen, dass wir diesem Wert vorliegende Daten aus Google Analytics zugrunde legen. Grundsätzlich ist das möglich, doch verwenden wir solche Daten bisher nicht.

Welche Arten von Modellen verwenden Sie?

Wir verwenden abhängig von ihrem Verhalten unterschiedliche Modelle für verschiedene Ziele. Darüber hinaus setzen wir auch regelmäßig neue Modelle ein, um möglichst schnell möglichst genaue Ergebnisse zu erzielen.

Können Sie die Schritte des Analyseprozesses erläutern?

Der Prozess unterscheidet sich zwar je nach Ziel und Messmethode geringfügig, die Grundprinzipien sind jedoch folgende:

  1. Wir erfassen Rohtrefferdaten im Google Analytics-Back-End.
  2. Testdaten werden abhängig vom Ziel aggregiert, oft in einem modifizierten Format. Einige Messwerte werden beispielsweise vor dem Aggregieren nach Bedarf logarithmisch umgewandelt.
  3. Die täglich aggregierten Daten werden in unser System zur Verarbeitung von Statistiken übernommen.
  4. Anhand dieser aggregierten Daten wird die Art der Verteilung der Conversion-Rate mit dem Markov Chain Monte Carlo-Verfahren (MCMC-Verfahren) prognostiziert. Gleichzeitig wird eine Stichprobe dieser Ergebnisse erhoben.
  5. Indem wir eine große Anzahl an Stichproben aus diesen Verteilungen (auch als Ziehungen bezeichnet) vergleichen, können wir Statistiken erstellen. Die Werte Wahrscheinlichkeit, die ursprüngliche Variante zu übertreffen und Wahrscheinlichkeit, die beste Variante zu sein werden anhand der Anzahl der Stichproben generiert, bei denen eine Variante das ursprüngliche Ergebnis bzw. alle ursprünglichen Ergebnisse überbietet.

Verwenden Sie fraktionelle oder vollfaktorielle multivariate Tests?

Multivariate Tests sind mit das effizienteste Testmittel, das uns zur Verfügung steht. Hier eine kurze Übersicht über diese Begriffe:

  • Ein multivariater Test ist im Grunde eine Kombination von zwei oder mehr A/B-Tests, bei dem verschiedene Elemente der Nutzererfahrung variieren, um unterschiedliche Kombinationen testen zu können. Jeder Teil wird dabei als Faktor, Element oder Bereich bezeichnet. Ein multivariater Test kann beispielsweise die zwei Faktoren Anzeigentitel und Hero-Image beinhalten, die wiederum mehrere Varianten haben. So lassen sich beispielsweise zwei Anzeigentitel und drei Hero-Images testen, um herauszufinden, welche der sechs möglichen Kombinationen am besten funktioniert und ob es positive oder negative Auswirkungen auf die Interaktion gibt.
  • Bei einem vollfaktoriellen multivariaten Test werden Nutzern alle Kombinationen präsentiert. Diese Kombinationen lassen sich wie umfangreiche A/B-Tests analysieren. Die Methode hat den Nachteil, dass die Anzahl der möglichen Kombinationen mit der Anzahl der Bereiche exponentiell ansteigt. Es kann daher sehr lange dauern, bis ausreichend Daten für sinnvolle Ergebnisse vorliegen. Der Vorteil liegt jedoch darin, dass Sie die Leistung aller potenziellen Kombinationen kennen.
  • Bei fraktionellen faktoriellen multivariaten Tests wird nur eine Auswahl der Kombinationen präsentiert und analysiert. So können zwar schneller Ergebnisse erzielt werden, wenn jedoch die tatsächlich beste Kombination bei dem Test gar nicht berücksichtigt wurde, wissen Sie ohne einen Folgetest nicht, welche Kombination die besten Ergebnisse erzielt hätte.

Mit unseren Modellen können wir einen gemischten Ansatz nutzen, der von den Vorteilen beider Verfahren profitiert. Wir präsentieren alle Kombinationen des Tests und Sie erhalten somit Informationen zu den Interaktionen und optimalen Kombinationen. Dabei berücksichtigen wir jedoch auch einige Varianten innerhalb der Kombinationen, die Ihnen über einfache Kombinationen hinaus auch Informationen zu Varianten innerhalb eines Faktors liefern.

Dieser Artikel mit häufig gestellten Fragen gehört zu einer Reihe von Artikeln zu Statistiken und Methodik von Optimize:

War das hilfreich?
Wie können wir die Seite verbessern?