Testergebnisse

Themen in diesem Artikel:

Was ist die "Wahrscheinlichkeit, die ursprüngliche Variante zu übertreffen"? Ist das dasselbe wie Konfidenz?

Nein. Beides lässt sich jedoch auf ähnliche Weise einsetzen. Wahrscheinlichkeit, die ursprüngliche Variante zu übertreffen trifft jedoch besser den Kern dessen, was die meisten Menschen von Konfidenz erwarten. Für viele ist das Konzept der Konfidenz (1 minus p) schwer zu verstehen. Wahrscheinlichkeit, die ursprüngliche Variante zu übertreffen hingegen ist genau das: die Wahrscheinlichkeit, dass eine Variante eine bessere Leistung erzielt als die ursprüngliche Variante. Sie können warten, bis der Wert Wahrscheinlichkeit, die ursprüngliche Variante zu übertreffen 95 % erreicht, oder die neue Variante früher verwenden, wenn Sie bereit sind, ein gewisses Risiko einzugehen. Weitere Informationen zur Deutung von p-Werten finden Sie in diesem Artikel.

Was ist die "Wahrscheinlichkeit, die beste Variante zu sein"?

Der Wert Wahrscheinlichkeit, die beste Variante zu sein gibt an, welche Variante wahrscheinlich die besten Ergebnisse erzielen wird. Sie liefert damit genau die Informationen, die der Name verspricht. Um dieselben Ergebnisse in einer frequentistischen Umgebung zu erhalten, müssen Sie zusätzlichen Aufwand wie Bonferroni-Korrekturen betreiben (siehe mehrere Vergleiche), um ungenaue Werte zu vermeiden.

Woran machen Sie fest, wann ein Test beendet werden sollte?

Beim Anzeigen von Statusmeldungen oben auf der Berichtsseite gehen wir aktuell wie folgt vor:

  • Wir überprüfen jeden Tag, ob neuer Traffic für den Test vorliegt, damit dieser sinnvolle Ergebnisse liefern kann.
  • Wir lassen den Test zwei Wochen lang laufen. Dieser Zeitraum ist sinnvoll, da Sie bei Tests zu regelmäßig besuchten Teilen einer Website in der Regel so eine gute Mischung aus Daten von Wochentagen, Wochenenden und Abweichungen von Woche zu Woche erhalten. Diese zwei Wochen sind jedoch nur ein Mindestwert. Sie können Tests auch länger durchführen. Wenn Sie der Meinung sind, dass sich Ihr Traffic qualitativ innerhalb von zwei Wochen nicht verändert, können Sie den Test auch früher beenden. Dies ist jedoch nicht empfehlenswert.
  • Wir betrachten den Messwert "Möglicher verbleibender Wert". In der Statistik wird dieser Wert als "Regret" bezeichnet. Betrachten Sie diesen Wert als potenziellen Verlust oder potenzielle Kosten für Werbechancen. Dieser Messwert ist in der Optimize-Benutzeroberfläche derzeit nicht verfügbar, wird aber künftig möglicherweise bereitgestellt. Er beschreibt, inwieweit sich ein Zielmesswert (z. B. Conversion-Rate oder Umsatz) noch weiter verbessern lässt. Eine mögliche Aussage, die sich mithilfe dieses Messwerts zu einem Umsatzziel machen ließe, ist folgende: "Es besteht eine Chance, dass eine Ihrer Varianten eine um 2 € bessere Leistung erzielen könnte als die aktuell verwendete Variante. Je länger Sie einen Test laufen lassen, desto geringer ist das Risiko, diese 2 € zu verlieren." Dieser Wert tendiert mit zunehmenden Datenmengen und zunehmendem Vertrauen in Ihre Ergebnisse in der Regel gegen null. Wenn sich der Traffic während eines laufenden Tests jedoch ändert, kann der Wert auch ansteigen. Aktuell erklären wir einen Test für abgeschlossen, wenn wir davon ausgehen, dass sich die beste Conversion-Rate um nicht mehr als 1 % verbessern lässt.

Wie entscheiden Sie, wann sich eine Variante als beste herausgestellt hat?

Wenn die oben genannten Bedingungen erfüllt sind, verwenden wir diejenige Variante, die mit hoher Wahrscheinlichkeit die beste ist. Wenn diese Variante außerdem die bisherige beste Variante mit einer Wahrscheinlichkeit von mindestens 95 % übertrifft, ist sie die beste Variante.

Warum erhalte ich durch Teilen einer Zahl durch eine andere nicht dieselben Median-Conversion-Raten?

Wir nutzen komplexe Modelle, bei denen unter anderem die Faktoren Zeit, Nutzerkontext und Beständigkeit der Ergebnisse berücksichtigt werden. Wenn Sie einfach eine Zahl durch eine andere Teilen, können Sie niemals alle diese Faktoren einbeziehen. Wir verwenden daher Modelle, um bestmögliche Prognosen zur künftigen Leistung Ihrer Varianten zu erstellen und Ihnen langfristig sinnvolle Ergebnisse zu präsentieren.

Welche Conversion-Raten werden in Optimize angezeigt? Was bedeuten die einzelnen Werte?

In Optimize werden verschiedene modellierte Werte angezeigt. Insbesondere finden Sie hier den Bereich, in dem Ihre tatsächliche Conversion-Rate mit einer 95 %igen Wahrscheinlichkeit enthalten ist. Wenn Sie den Mauszeiger auf die Werte in der untersten Infokarte bewegen, sehen Sie außerdem den Medianwert sowie den 50 %-Bereich. Diese Bereiche werden in der Regel im Laufe des Tests mit zunehmenden Datenmengen kleiner. Sobald sich die Bereiche der Conversion-Raten weniger überschneiden, steigen die Wahrscheinlichkeiten für Varianten mit besserer Leistung an. Diesen Fortschritt sehen Sie im Zeitreihendiagramm unten auf der Berichtsseite. Die Bereiche werden außerdem in den einzelnen Zeilen der unteren Infokarte angezeigt.

Warum wird in Optimize ein Wertebereich für "Verbesserung" angezeigt? Diese ist bei den meisten Tools nicht der Fall.

Das ist ein Nachteil anderer Tools. Dieser Wertebereich gibt an, inwieweit eine Variante bessere Ergebnisse als die ursprüngliche Variante erzielen kann. Jeder Verbesserungswert sollte unabhängig von der Testmethode ein Intervall haben. Tools, in denen keine Wertebereiche verwendet werden, stellen die Ergebnisse zu einfach dar und es gehen wichtige Informationen verloren. Das angezeigte Intervall ist der Bereich, indem wir zu 95 % sicher sind, dass die Verbesserung auch eintritt und bei unveränderten Bedingungen auch so bleibt. Bewegen Sie den Mauszeiger auf die Werte in der letzten Infokarte, um den Medianwert und das 50 %-Intervall anzuzeigen.

Kann man irgendwie erkennen, wie lange ein Test dauern sollte?

Da unser Ansatz an die Testbedingungen angepasst wird, kann ein Test abhängig von den jeweiligen Bedingungen unterschiedlich lange dauern. Wenn Sie beispielsweise äußerst beständige Conversion-Raten haben, lassen sich schneller Ergebnisse erzielen. Wenn die Raten hingegen stark variieren, kann der Test länger dauern, da wir die verschiedenen Einflussfaktoren modellieren. Tools, bei denen die Länge eines Tests prognostiziert wird, basieren auf der Annahme, dass keine Abweichungen auftreten bzw. sich die Ergebnisse im Zeitverlauf nicht ändern werden. In realen Tests ist dies jedoch selten der Fall. Wir empfehlen außerdem, eine Testdauer von mindestens zwei Wochen zu wählen, um zyklisch auftretende Abweichungen in Ihrem Traffic wie Wochentage/Wochenenden abzufangen und andere Anomalien wie kürzlich zurückliegende Käufe auszugleichen.

Warum verwenden Sie sitzungsorientierte Messwerte anstelle von nutzerorientierten Messwerten?

Für unterschiedliche Tests sind je nach Situation stark voneinander abweichende Ansätze – von sehr oberflächlich bis zu extrem detailliert – sinnvoll. Ein Publisher, der möglichst viele Seitenaufrufe erzielen möchte, richtet seine Optimierung beispielsweise eher auf die Anzahl der Seitenaufrufe pro Sitzung aus, wohingegen ein E-Commerce-Anbieter, der Neukunden gewinnen möchte, sich auf den ersten Kauf konzentriert und im Hinblick auf "Nutzer, die Conversions ausgeführt haben" optimiert. Es gibt noch viele weitere mögliche Anwendungsfälle.

Darüber hinaus stellen sich für jeden Messwerttyp individuelle Herausforderungen beim Erfassen der statistischen Auswirkungen. Durch detaillierte Messwerte gewinnen Sie ein umfassendes Verständnis für den Kontext und die Auswirkungen auf Tagesbasis. Gröbere Messwerte liefern solche Informationen dagegen nicht.

Wir entwickeln beständig neue Methoden zur Auswertung von Tests, damit Sie Ihre Messwerte anhand fundierter Ergebnisse optimieren können. Mit unserem sitzungsorientierten Ansatz streben wir ein ausgeglichenes Verhältnis der verfügbaren Optionen und Kompromisse an. Er ermöglicht uns ein besseres Verständnis der täglichen Abweichungen innerhalb eines Tests und liefert dennoch vergleichbare Ergebnisse wie andere, weniger detaillierte Ansätze.

Dieser Artikel mit häufig gestellten Fragen gehört zu einer Reihe von Artikeln zu Statistiken und Methodik von Optimize:

War das hilfreich?
Wie können wir die Seite verbessern?