Overview

Veelgestelde vragen (meerarmige bandiet)

Vindt de bandiet altijd de optimale arm?

Het algoritme van de meerarmige bandiet vindt gegarandeerd de optimale arm als het experiment voor oneindige tijd wordt uitgevoerd [3] [4]. U gaat het experiment echter niet voor oneindige tijd uitvoeren. Daarom is er geen waterdichte garantie dat de gevonden arm de optimale arm is. Er is natuurlijk geen enkele statistische methode die met 100 procent zekerheid het optimale antwoord kan vinden met eindige gegevens. Het is daarom niet vreemd dat ons bandietalgoritme die zekerheid ook niet kan bieden. Daarom hebben we de duur van het experiment op maximaal drie maanden gezet. Als we dan nog geen winnaar hebben gevonden, betekent dit waarschijnlijk dat er niet veel meer wordt gevonden en dat u beter kunt experimenteren met andere aspecten van uw site.

Is de bandiet altijd korter dan een klassieke test?

De bandiet kan veel sneller resultaten genereren dan klassieke testen, tegen lagere kosten, en met dezelfde statistische validiteit. Zo nu en dan kunnen experimenten echter toevallig langer duren dan verwacht.

Bij welk type experiment functioneert de meerarmige bandiet significant beter (of slechter) ten opzichte van de klassieke testen?

De meerarmige bandiet biedt een groter voordeel ten opzichte van klassieke testen in complexe experimenten waarbij er een echt effect wordt gevonden [1]. Als één van uw varianten veel beter dan de andere presteert, wordt de optimale arm snel gevonden. Als één of meer varianten veel slechter dan de andere functioneert, dan wordt er snel een lagere weging aan toegekend, zodat het experiment zich kan richten op het vinden van de beste arm.

De slechtste situatie voor de bandiet is wanneer twee armen exact hetzelfde presteren. In dat geval is de beste uitkomst dat de armen observaties vergaren met dezelfde snelheid totdat het experiment stopt. De bandiet vertoont dit gedrag over het algemeen, maar in de meeste experimenten zal één arm sneller per toeval observaties vergaren.

Houd in gedachten dat mensen experimenten uitvoeren omdat ze denken dat ze de bestaande pagina kunnen verbeteren. We willen daarom niet teveel de nadruk leggen op het slechtste scenario waargenomen door klassieke testen.

Wat gebeurt er als de optimale arm in het begin pech heeft? Kan dit herstellen?

Zelfs als een arm een lage weging heeft gekregen in het begin van het experiment, kan dit zich herstellen. Er zijn twee redenen voor het ten onrechte toekennen van een lage weging aan een arm. De arm presteert onverwacht slecht of een andere arm presteert onverwacht goed (of allebei). Wanneer per toeval een mindere arm wordt bevoordeeld, zal die arm meer observaties vergaren. Vervolgens wordt ontdekt dat de arm niet zo goed presteert als gedacht en zal de weging verminderen, en de weging van concurrerende armen toenemen.

Zijn de resultaten van de bandiet statistisch geldig?

Ja. De bandiet gebruikt de Bayesiaanse methode met sequentieel bijwerken waarbij wordt geleerd van de dagelijkse resultaten van het experiment. Dit is een andere manier van statistische validatie dan die wordt gebruikt bij klassieke testen. Een klassieke test start met een nulhypothese. Bijvoorbeeld: 'de varianten zijn allemaal even effectief'. Vervolgens wordt bewijsmateriaal verzameld over de hypothese en wordt beoordeeld of de hypothese kan worden verworpen. Als de nulhypothese kan worden verworpen, heeft u een statistisch significant resultaat.

Het doel van statistische significantie is om u ervan te weerhouden een type I-fout te maken. Binnen de context van website-optimalisatie betekent een type I-fout dat een variant wordt gekozen die qua prestaties niet werkelijk verschilt van het origineel. U wilt type I-fouten voorkomen (het zijn tenslotte fouten) maar in deze context zijn dit type fouten veel minder kostbaar dan type II-fouten. Voor ons is de type II-fout dat we niet naar een veel betere arm (meerarmige bandiet) overschakelen, wat duur is omdat dit betekent dat u conversies misloopt.

Het Bayesiaans bijwerken stelt de vraag: 'Wat is de waarschijnlijkheid dat dit de beste arm is, op basis van mijn huidige kennis?' Bij de toetsing van hypothesen wordt de volgende vraag gesteld: 'Wat is de waarschijnlijkheid dat ik deze uitkomst zou zien als alle armen gelijk zouden zijn?' Beide zijn geldige vragen, maar de Bayesiaanse vraag is voor veel mensen gemakkelijker te begrijpen en zorgt voor een natuurlijk evenwicht tussen type I- en type II-fouten doordat wordt geprofiteerd van experimentgegevens zodra deze beschikbaar komen.

Bij klassieke hypothesetoetsen moet u wachten totdat een bepaald aantal observaties is gedaan voordat u uw gegevens bekijkt, anders wordt de waarschijnlijkheidsvraag die moet worden beantwoord te ingewikkeld. Als u een slecht presterende arm heeft in uw experiment, resulteert dit bij klassieke testen in hoge kosten. Beide methoden zijn geldig. Waarom zou u dan niet voor de methode kiezen die u tijd en geld bespaart en de ingewikkelde, dure methode overslaan waarbij u moet wachten op de resultaten van uw experiment?

Was dit nuttig?
Hoe kunnen we dit verbeteren?