Übersicht

Häufig gestellte Fragen (Multi-Armed-Bandit-Experiment)

Ermittelt das Multi-Armed-Bandit-Experiment immer die optimale Variante?

Der für das Multi-Armed-Bandit-Experiment verwendete Algorithmus ermittelt tatsächlich immer die optimale Variante, wenn der Test ewig durchgeführt wird [3] [4]. Sie führen den Test natürlich nicht ewig aus, deshalb gibt es keine felsenfeste Garantie, dass es sich bei der ermittelten Variante um die optimale Variante handelt. Keine statistische Methode liefert ein 100-prozentiges Ergebnis mit endgültigen Daten. Dies ist auch beim Multi-Armed-Bandit-Experiment der Fall. Der Test dauert deshalb höchstens drei Monate. Wenn nach diesem Zeitraum kein Gewinner ermittelt wurde, gibt es einfach nichts Bedeutendes zu ermitteln und Sie müssen andere Aspekte Ihrer Website testen.

Läuft das Multi-Armed-Bandit-Experiment immer über einen kürzeren Zeitraum als ein klassischer Test?

Das Multi-Armed-Bandit-Experiment ermittelt Ergebnisse erheblich schneller als ein klassischer Test. Die statistische Validität leidet nicht darunter. Es kann jedoch vorkommen, dass Tests gelegentlich länger dauern als erwartet.

Welche Arten von Tests führen dazu, dass das Multi-Armed-Bandit-Experiment im Vergleich zu klassischen Tests besonders gut (oder schlecht) abschneidet?

Das Multi-Armed-Bandit-Experiment übertrifft klassische Tests, wenn komplexe Tests durchgeführt werden und tatsächlich eine optimale Variante ermittelt werden kann [1]. Wenn eine Ihrer Varianten viel bessere Leistungen erzielt als die anderen, wird diese optimale Variante sehr schnell ermittelt. Wenn eine oder mehrere Varianten wesentlich schlechtere Leistungen aufweisen als andere, werden diese schnell abgewertet, damit der Test sich auf die Ermittlung der besten Variante konzentriert.

Das Worst-Case-Szenario für das Multi-Armed-Bandit-Experiment ist ein Test mit zwei Varianten, die genau die gleiche Leistung erzielen. In diesem Fall ist die ideale Lösung für die Varianten, bis zum Testende Beobachtungen zu gleichen Raten zu akkumulieren. Das Multi-Armed-Bandit-Experiment zeigt dieses Verhalten im Durchschnitt an. Es kann jedoch vorkommen, dass in einem Test zufällig eine Variante schneller Beobachtungen akkumuliert als die andere.

Tests werden durchgeführt, um die Leistung einer vorhandenen Seite zu verbessern, das Worst-Case-Szenario in klassischen Tests soll hier deshalb nicht überbewertet werden.

Was passiert, wenn die optimale Variante zu Beginn des Tests schlechte Leistungen erzielt? Kann die Variante sich davon erholen?

Auch wenn eine Variante zu Beginn des Tests abgewertet wird, kann sie sich davon erholen und wieder aufgewertet werden. Eine Variante kann aus zwei Gründen ungerechterweise abgewertet werden. Entweder erzielt eine Variante ungewöhnlich schlechte Leistungen oder eine andere Variante erzielt ungewöhnlich gute Leistungen, oder beide Fälle treten ein. Wenn eine "schlechtere" Variante zunächst gute Leistungen erzielt, akkumuliert sie zunächst mehr Beobachtungen. Im Verlauf des Tests werden die Beobachtungen für diese Variante weniger, sie wird abgewertet. Analog dazu werden bessere Varianten aufgewertet.

Sind die Ergebnisse des Multi-Armed-Bandit-Experiments statistisch gültig?

Ja. Im Multi-Armed-Bandit-Experiment wird die sequenzielle Bayes-Methode angewendet. Die Ergebnisse am Ende eines Tages während des Tests werden für den nächsten Tag berücksichtigt. Dies ist der wesentliche Unterschied in Bezug auf die statistische Validität im Vergleich zu klassischen Tests. In einem klassischen Test wird zunächst eine Nullhypothese angenommen. Beispiel: "Alle Varianten sind gleich effektiv." Anschließend werden Beweise für die Hypothese gesammelt und es wird beurteilt, ob sie verworfen werden kann. Wenn die Nullhypothese verworfen werden kann, wurde ein statistisch signifikantes Ergebnis ermittelt.

Die statistische Signifikanz unterstützt Sie dabei, Fehler erster Art zu vermeiden. Im Rahmen der Website-Optimierung würde ein Fehler erster Art bedeuten, dass eine neue Variante ausgewählt wird, die im Hinblick auf die Leistung keinen Unterschied zum Original aufweist. Fehler der ersten Art sollten vermieden werden, sind aber in diesem Kontext wesentlich weniger kostspielig als Fehler zweiter Art. In unserem Fall würde ein Fehler zweiter Art bedeuten, dass nicht die bessere Variante weiterverfolgt wird, was wiederum bedeuten würde, dass Sie Conversions verlieren.

Die Bayes-Methode arbeitet nach folgendem Prinzip: "Wie hoch ist – basierend auf den aktuell vorhandenen Informationen – die Wahrscheinlichkeit, dass diese Variante die beste ist?" Ein Hypothesentest arbeitet nach folgendem Prinzip: "Wie hoch ist die Wahrscheinlichkeit, dass dieses Ergebnis ermittelt wird, wenn alle Varianten gleich sind?" Beide Fragen sind berechtigt, die Bayessche Frage ist für die Meisten allerdings leichter zu verstehen. Sie hält außerdem ein natürliches Gleichgewicht zwischen Fehlern der ersten und der zweiten Art, da die Informationen aus den Tests direkt genutzt werden.

Bei klassischen Hypothesentests muss gewartet werden, bis eine gewisse Anzahl an Beobachtungen durchgeführt wurde, bevor Sie Ihre Daten sehen, da die Frage nach der Wahrscheinlichkeit andernfalls zu kompliziert wird. Sollte es in Ihrem Test eine leistungsschwache Variante geben, führen klassische Tests zu hohen Opportunitätskosten. Beide Methoden liefern aussagekräftige Ergebnisse, es empfiehlt sich jedoch, das Multi-Armed-Bandit-Experiment zu verwenden, um Zeit und Geld zu sparen. Zudem müssen Sie nicht bis zum Ende des Tests warten, um Ergebnisse zu erhalten.

War dieser Artikel hilfreich?
Wie können wir die Seite verbessern?