Allgemeine Methodik

Themen in diesem Artikel:

Worin unterscheidet sich der Ansatz von Optimize von der Analyse von Testergebnissen?

Unser Ansatz unterscheidet sich von dem Ansatz, der von vielen anderen Testtools verwendet wird – einer frequentistischen Analyse der Ergebnisse im Verlauf des Tests – in zwei wichtigen Aspekten.

Zuerst erstellen wir unsere Statistiken anhand von bayesscher Inferenz, einer komplexen Methode zur statistischen Analyse, mit der wir Testergebnisse mit wachsenden Datenmengen kontinuierlich verfeinern können. Bayessche Inferenz ist an sich zwar sehr rechenintensiv und kostspielig, bietet gegenüber traditionelleren Ansätzen jedoch zahlreiche Vorteile:

  • Die Wahrscheinlichkeit, dass eine Variante alle anderen Varianten übertrifft, lässt sich ohne die zahlreichen Probleme von hypothesenbasierten Testansätzen bestimmen.
  • Wahrscheinlichkeiten können mithilfe bayesscher Methoden direkt berechnet werden. So lassen sich tatsächliche Fragen von Werbetreibenden (anders als mit P-Werten, die nur die wenigsten wirklich verstehen) besser beantworten. Weitere Informationen zu P-Werten

Einer der Hauptvorteile der bayesschen Inferenz besteht jedoch darin, dass wir für die Analyse von A/B-Tests und multivariaten Testergebnissen komplexere Modelle verwenden können – der zweite große Unterschied unseres Ansatzes. Bei traditionellen Testmethoden werden zahlreiche Annahmen zugrunde gelegt und es wird ein einheitlicher Ansatz für alle Testergebnisse verwendet. Mit bayesscher Inferenz können wir jedoch je nach Test individuell ein Modell auswählen. Wir bewerten kontinuierlich neue Modelle, um Testern so schnell wie möglich genaue Ergebnisse zu liefern. Dies sind einige der von uns verwendeten Modelle:

  • Mit hierarchischen Modellen können wir die Beständigkeit der Conversion-Raten einer Variante im Zeitverlauf nachbilden. Wenn ein Test einen erheblichen "Neuheitseffekt" hat, der mit der Zeit nachlässt, lässt sich dies mit hierarchischen Modellen effektiver ausgleichen. So kann die Leistung einzelner Varianten im Zeitverlauf besser prognostiziert werden.
  • Mit kontextbezogenen Modellen können wir Informationen zum Test- oder Nutzerkontext erfassen. Wenn sich neue Nutzer anders verhalten als wiederkehrende Nutzer, lassen sich diese Informationen in das Endergebnis einbinden, um ein genaueres Ergebnis zu erhalten.
  • Mit rastlosen Modellen ist es möglich, übergreifende Leistungstrends zu neutralisieren, die sich auf alle Varianten auswirken, und somit den Effekt von Veränderungen durch jede einzelne Variante klarer herauszustellen. Wenn sich also beispielsweise die Conversion-Raten am Wochenende stark von denen an Wochentagen unterscheiden, wird dieser Effekt ausgeglichen und die Unterschiede zwischen den Varianten deutlicher hervorgehoben.

Indem wir bayessche Inferenz in Verbindung mit komplexeren Modellen einsetzen, können wir alle Faktoren, die sich auf die Testergebnisse auswirken, besser nachbilden. In der Praxis ist es nicht so, dass Nutzer eine bestimmte Variante einmal sehen und dann eine Conversion ausführen. Einige Nutzer sehen eine Variante mehrmals, andere nur einmal. Es gibt Nutzer, die sich nur bei Angeboten umsehen, für andere Nutzer spielt das keine Rolle. Dann gibt es noch Nutzer, die schon seit Jahren mit Ihrer Website interagieren, während andere gerade neu hinzugekommen sind. Mit unseren Modellen können wir im Gegensatz zu traditionellen Ansätzen solche Faktoren erfassen, die sich auf die Testergebnisse auswirken. Hier einige Vorteile:

  • Wir können andere komplexe Faktoren berücksichtigen, die sich auf die Testergebnisse auswirken und Ihnen so genauere Ergebnisse zur erwarteten Leistung Ihrer Varianten liefern.
  • Bei Tests mit geringem Traffic erhalten Sie Testergebnisse oft schneller, da wir andere Aspekte der Testergebnisse berücksichtigen und somit nicht auf eine Mindeststichprobengröße angewiesen sind.
  • Wir können multivariate Tests schnell und umfassend ausführen und analysieren.

Welche Probleme bei der Analyse von A/B-Tests sollen durch den Ansatz von Optimize gelöst werden?

Bei der Analyse des aktuellen Zustands am Markt sowie der Daten unserer bisherigen Erfahrungen mit Content-Tests und dem Google Website-Optimierungstool kamen einige Hauptprobleme zutage:

  • Werbetreibende, die Tests durchführen, möchten sich auf die Ergebnisse verlassen können. Es ist ihnen wichtig zu wissen, wie wahrscheinlich eine Variante die anderen übertreffen wird. Und sie möchten wissen, wie ausgeprägt die Ergebnisse sind. P-Werte und Hypothesentests liefern diese Informationen nicht. Die meisten Tester können P-Werte nicht richtig deuten und ziehen daher falsche Schlussfolgerungen. Selbst Wissenschaftler haben Probleme mit diesen Werten.
  • Tester werfen regelmäßig einen Blick auf Zwischenergebnisse. Dies ist jedoch problematisch, da zu frühes Handeln bei frequentistischen Ansätzen auf falschen Entscheidungen beruhen kann.
  • Tester brauchen zwar schnelle, aber dennoch präzise Ergebnisse. Bei den meisten Standardtests wird davon ausgegangen, dass sich die Ergebnisse im Lauf der Zeit nicht ändern werden, obwohl sich die Testbedingungen im Testverlauf meist dadurch ändern, dass Nutzer auf neue Inhalte reagieren und ihr Verhalten entsprechend ändern. Daher stellen viele Tester fest, dass Testergebnisse nicht nachhaltig sind, selbst wenn sie eine überragende Variante gefunden haben. Darüber hinaus beeinflusst auch zyklisches Verhalten wie die Unterschiede zwischen Wochentagen und Wochenenden die Testergebnisse. Wenn dieser Faktor nicht berücksichtigt wird, werden oft falsche Schlussfolgerungen gezogen.
  • Wenn multivariate Tests zu sehr vereinfacht werden, muss man oft Abstriche machen und den Test entweder sehr lange ausführen oder nur wenige Kombinationen testen, was sich beides negativ auf die Datenqualität auswirkt.

Welche "erweiterten Modelle" werden eingesetzt? Können Sie ein Beispiel nennen?

Wir verwenden unterschiedliche Modelle für verschiedene Ziele. Oft kommt jedoch das hierarchische Modell zum Einsatz, bei dem wir die tägliche Conversion-Rate der einzelnen Varianten als Basis für unser Modell verwenden. Bei traditionelleren Ansätzen werden dagegen die Rohdaten der Conversions und Versuche im Testverlauf zusammengefasst und als Basis für eine einfache frequentistische Berechnung verwendet. Unsere Wahl der Datenbasis ist deshalb wichtig, weil diese Daten uns ein umfassenderes Verständnis für die langfristige Entwicklung der Conversion-Raten liefern. Außerdem kommen wir bei soliden Conversion-Raten schneller zu Ergebnissen und können auch bei stark schwankenden Conversion-Raten genauere Ergebnisse liefern.

Betrachten Sie das folgende Beispiel:

  • ein Original, eine Variante
  • 1.000 Versuche pro Tag pro Variante
  • tatsächliche langfristige Conversion-Rate (CvR) der Variante: 1 %
  • (Konstante) Conversion-Rate des Originals: 3 %
  • "Neuheitseffekt" der Variante: Nutzer klicken öfter auf die Variante, da sie neu ist (z. B. 10 % zu Beginn des Tests). Dieser Effekt lässt nach einigen Tagen nach.

Dies könnte im Verlauf des Tests zu folgenden Leistungswerten führen:

Chart: average conversion rate

Bei den meisten Tools wird die durchschnittliche Conversion-Rate angezeigt (in rot). Es dauert sehr lange, bis sich diese an die tatsächliche Conversion-Rate von 1 % annähert. Außerdem scheint die Variante bis etwa Tag 8 als Sieger hervorzugehen.

Mit den Berechnungen unserer hierarchischen Modelle kommen wir sehr viel näher an die tägliche Conversion-Rate heran (in blau). Uns interessiert, wie beständig die Conversion-Raten sind und hier sehen wir, dass diese stark variieren. So lässt sich sagen, dass die Variante zwar zuerst das Original übertrifft, aber bereits an Tag 3 ist erkennbar, dass die Ergebnisse weit weniger verlässlich sind als sich anhand der durchschnittlichen Conversion-Rate im Testverlauf vermuten ließe.

Was ist bayessche Inferenz?

Bayessche Inferenz bedeutet, dass wir bereits vorliegende Daten als Basis nehmen, um bessere Prognosen für neue Daten zu erstellen. Wenn neue Daten eingehen, verfeinern wir unser "Modell" der Realität, um genauere Ergebnisse zu erhalten.

Betrachten wir dafür das folgende Beispiel:

Stellen Sie sich vor, Sie haben Ihr Smartphone irgendwo im Haus verlegt und hören es in einem von fünf Räumen klingeln. Aus Ihrer bisherigen Erfahrung wissen Sie, dass Sie es oft im Schlafzimmer liegen lassen.

Bei einem frequentistischen Ansatz müssten Sie stillstehen und auf das Klingeln lauschen und dabei hoffen, dass Sie (ohne sich zu bewegen!) möglichst genau hören, in welchem Raum das Smartphone liegt. Und Sie dürften dabei nicht auf Ihre Erfahrung zurückgreifen, wo Sie das Smartphone normalerweise liegen lassen.

Der bayessche Ansatz dagegen ist eng mit unserem gesunden Menschenverstand verknüpft. Zuerst einmal wissen Sie ja, dass Sie Ihr Smartphone oft im Schlafzimmer liegen lassen und gehen davon aus, dass Sie es wahrscheinlich dort finden. Dieses Wissen dürfen Sie auch nutzen. Zum anderen können Sie bei jedem Klingeln des Telefons in die Richtung gehen, in der Sie es vermuten. Dadurch sind Ihre Chancen, das Telefon möglichst schnell zu finden, wesentlich höher.

Das ist zwar interessant, aber gibt es auch eine verständlichere Erklärung für bayessche Statistiken?

Die gibt es, und wer könnte dieses Konzept besser erklären als einige hervorragende Statistiker? Hier finden Sie einen guten Überblick für Einsteiger.

Warum werden bayessche Inferenz bzw. diese erweiterten Modelle nicht grundsätzlich angewandt?

Dafür gibt es mehrere Gründe. Zuerst einmal lassen sich nicht-bayessche Methoden einfacher erklären. Daher werden sie oft in Einführungskursen für Statistiker gelehrt. Für bayessche Modelle muss man sich eingehender mit Wahrscheinlichkeiten auseinandersetzen und darüber hinaus ist bayessche Inferenz auch ein kostspieliges Rechenverfahren. Um Ergebnisse für nur eine einzelne Kombination aus Variante/Ziel zu berechnen, sind zehntausende oder mehr Markov Chain Monte Carlo-Iterationen erforderlich – Simulationen, in denen die Leistung jeder Variante nachgebildet wird. Dies war lange Zeit nicht machbar und ist auch jetzt in vielen Fällen nicht ohne hinreichende Skalierung möglich. Glücklicherweise gehört Skalierung zu den Stärken von Google.

Mithilfe von bayesschen Methoden lassen sich auch erweiterte Modelle einsetzen. Einige davon können zwar auch in Verbindung mit frequentistischen Ansätzen verwendet werden, es ist jedoch wesentlich schwieriger, die für genaue Ergebnisse erforderlichen Korrekturen vorzunehmen. Darüber hinaus bietet bayessche Inferenz noch weitere Vorteile.

Welche Lösung bietet Optimize für diese Probleme?

Das Problem der Deutung: Mit bayesscher Statistik lassen sich Fragen beantworten wie "Wie wahrscheinlich wird diese Variante die bisherige Variante übertreffen?" oder "Wie wahrscheinlich ist diese Variante die beste?". Die Berechnungen sind dabei zwar komplexer, liefern aber Antworten, die dem normalen menschlichen Denken angeglichen sind.

Das Problem von Zwischenergebnissen: Da wir bei unseren Modellen auch Veränderungen im Zeitverlauf berücksichtigen, können Sie jederzeit die Zwischenergebnisse betrachten. Unsere Wahrscheinlichkeiten werden mit zunehmenden Datenmengen immer weiter verfeinert.

Das Problem mehrerer Vergleiche: Da bei bayesschen Methoden die relative Leistung aller Varianten gemeinsam berechnet und kein paarweiser Vergleich von Varianten vorgenommen wird, müssen Tester nicht mehrere Vergleiche von Varianten durchführen, um die potenzielle Leistung der einzelnen Varianten herauszufinden. Darüber hinaus sind keine komplexen statistischen Korrekturen erforderlich, wenn man unterschiedliche Bereiche der Daten betrachtet. Im Gegensatz dazu werden für Hypothesentests statistische Korrekturen benötigt, wenn Daten unterschiedlich betrachtet werden. Die meisten Tools leisten das jedoch nicht. Auch beim Betrachten mehrerer Datenbereiche können durch Zufall scheinbar eindeutige Ergebnisse zutage kommen. Diesen Zufall versuchen wir auszuschließen.

Geschwindigkeit und Genauigkeit: Da wir die Leistung aller Varianten gemeinsam im Zeitverlauf genauer nachbilden und nicht nur paarweise Vergleiche vornehmen, ist unsere Vorgehensweise kein frequentistischer Standardansatz. Bei konsistenten Daten erzielen wir auf diese Weise insbesondere bei geringem Traffic oft schneller Ergebnisse. Bei schwankenden Werten sind die Ergebnisse darüber hinaus genauer.

Traffic-Schwankungen im Zeitverlauf: Unseren komplexen Modellen legen wir die Annahme zugrunde, dass sich die Ergebnisse Ihres Tests im Zeitverlauf ändern können. Diese Annahme beziehen wir in unsere Analysen ein, um Ihnen bestmögliche langfristige Ergebnisse zu liefern.

Multivariate Tests: Mit dem Ansatz von Optimize können wir sowohl zur Leistung bestimmter Kombinationen im Direktvergleich als auch zur Leistung einzelner Varianten innerhalb verschiedener Kombinationen Aussagen treffen. So kommen wir schneller zu Ergebnissen als bei vergleichbaren A/B-Tests, obwohl wir alle Kombinationen testen.

Dieser Artikel mit häufig gestellten Fragen gehört zu einer Reihe von Artikeln zu Statistiken und Methodik von Optimize:

War das hilfreich?
Wie können wir die Seite verbessern?