Algemene methodologie

In dit artikel:

Wat is er anders aan de benadering van Optimize om experimentresultaten te meten?

In vergelijking met de benadering van veel andere testtools (een frequentistische analyse van de resultaten voor de duur van het experiment) wijkt onze benadering op twee belangrijke manieren af.

Ten eerste gebruiken we Bayesiaanse inferentie om onze statistieken te genereren. Bayesiaanse inferentie is een geavanceerde methode van statistische analyse waarmee de resultaten van het experiment voortdurend kunnen worden verfijnd naarmate er meer gegevens worden verzameld. Hoewel het veel rekenkracht vergt en duur is, biedt Bayesiaanse inferentie een aantal voordelen in vergelijking met traditionelere benaderingen:

  • We kunnen voor elke variant de kans aangeven dat deze over het geheel genomen het beste is, zonder de meervoudige testproblemen waarmee benaderingen op basis van toetsing van hypotheses te kampen hebben.
  • Bayesiaanse methodes stellen ons in staat om kansen direct te berekenen en de vragen die marketeers eigenlijk hebben, beter te beantwoorden (in tegenstelling tot het leveren van p-waarden, die slechts door enkelen worden begrepen). Meer informatie over p-waarden.

Een van de grootste voordelen van het gebruik van Bayesiaanse inferentie is echter dat het ons in staat stelt geavanceerdere modellen te gebruiken voor onze analyse van A/B- en multivariate-testresultaten, het tweede grote verschil in onze benadering. Met traditionele testmethoden worden talrijke aannames gedaan die resultaten van experimenten met een 'one-size-fits-all'-benadering verwerken. Met Bayesiaanse inferentie kunnen we echter verschillende modellen gebruiken die zich aan elk gewenst experiment aanpassen. We evalueren voortdurend nieuwe modellen om zo snel mogelijk zeer nauwkeurige resultaten te kunnen vinden. Dit zijn bijvoorbeeld enkele modellen die we hebben gebruikt:

  • Hiërarchische modellen stellen ons in staat om de consistentie van de conversiepercentages van een variant in de loop van de tijd te modelleren. Als een experiment significante 'nieuwheids'-effecten heeft die in de loop van de tijd wegebben, compenseren hiërarchische modellen dit effectiever, waardoor een nauwkeuriger weergave wordt gegeven van hoe de varianten in de toekomst zullen presteren.
  • Contextuele modellen stellen ons in staat om informatie over de context van het experiment of de gebruiker vast te leggen. Als nieuwe gebruikers zich anders gedragen dan terugkerende gebruikers, kunnen we die informatie in de algemene resultaten opnemen om u een nauwkeuriger eindresultaat te geven.
  • Rusteloze modellen neutraliseren de algemene prestatietrends die invloed hebben op alle varianten, waardoor de impact van de wijzigingen in elk van de varianten wordt geïsoleerd en verduidelijkt. Als bijvoorbeeld de conversiepercentages in het weekend veel verschillen van de conversiepercentages op weekdagen, worden deze effecten gelijk getrokken en worden de verschillen duidelijker.

Door Bayesiaanse inferentie te gebruiken met complexere modellen, zijn we beter in staat alle factoren te modelleren die uw testresultaten kunnen beïnvloeden. In de echte wereld zien gebruikers niet altijd slechts één variant en converteren onmiddellijk. Sommige gebruikers zien meerdere varianten meerdere keren, anderen slechts één keer. Sommige gebruikers bezoeken op kortingsdagen, sommige bezoeken op andere dagen. Sommigen hebben al jaren interacties gehad met uw digitale property's, anderen zijn nieuw. Onze modellen leggen factoren zoals deze vast die uw testresultaten beïnvloeden, terwijl traditionele benaderingen die buiten beschouwing laten. Hier volgen slechts enkele van de voordelen:

  • We kunnen rekening houden met andere complexe factoren die uw testresultaten beïnvloeden, zodat we met een grotere nauwkeurigheid kunnen rapporteren over de prestaties die u van uw varianten kunt verwachten.
  • We kunnen vaak sneller resultaten leveren in experimenten met weinig verkeer, omdat we geen minimale steekproefgrootten nodig hebben en kunnen vertrouwen op andere aspecten van uw resultaten.
  • We kunnen multivariate-tests snel uitvoeren en uitgebreid analyseren.

Welke problemen probeert Optimize op te lossen met betrekking tot meting met een A/B-test?

Toen we naar de huidige stand van de markt keken en naar de gegevens die we hadden over de eerdere ervaringen met Contentexperimenten en Google Website Optimizer, vielen ons een paar elementaire primaire problemen op:

  • Experimentatoren willen er zeker van zijn dat de resultaten juist zijn. Ze willen weten hoe waarschijnlijk het is dat de resultaten van een variant over het geheel genomen de beste zijn. En ze willen de omvang van de resultaten weten. P-waarden en hypothese-tests geven geen antwoord op die vragen! De meeste experimentatoren begrijpen niet echt wat p-waarden betekenen en trekken daardoor onjuiste conclusies. Zelfs wetenschappers hebben hier vaak moeite mee.
  • Experimentatoren houden ervan tests vaak te bekijken, met als gevolg het 'meekijk'-probleem. Reageren op vroegtijdige gegevens in een frequentistisch kader kan leiden tot onjuiste beslissingen.
  • Experimentatoren willen snelle resultaten, maar ook accurate resultaten. Bij tests met een standaard benadering wordt ervan uitgegaan dat de resultaten niet worden beïnvloed door de tijd, hoewel de meeste experimenten veranderen als gebruikers op nieuwe inhoud reageren of wanneer hun gedrag verandert gedurende een experiment. Bijgevolg stellen veel experimentatoren vast dat testresultaten in de loop der tijd niet constant blijven, zelfs na het vinden van een overtuigende winnaar. Daarnaast beïnvloedt cyclisch gedrag, zoals verschillen tussen weekdagen en weekends, vaak de resultaten. Door die cycli te negeren kunnen onjuiste conclusies worden getrokken.
  • Simplistische benaderingen van multivariate-tests houden vaak een afweging in: zeer lange runtimes of slechts een paar combinaties uitvoeren en gegevenskwaliteit opofferen.

Wat is een voorbeeld van een 'geavanceerd model' dat jullie gebruiken?

We gebruiken een verscheidenheid aan modellen voor verschillende doelen, maar we gebruiken vaak een hiërarchisch model, waarmee we het dagelijkse conversiepercentage voor elke variant als input gebruiken voor onze modellen. (Dit wijkt af van de gangbare aanpak, waarbij de ruwe conversie- en testaantallen over de duur van de test worden samengevat en als invoer worden gebruikt voor een eenvoudige frequentistische berekening.) Dit is belangrijk omdat we hierdoor beter kunnen begrijpen hoe uw conversiepercentages het in de toekomst gaan doen. Het betekent ook dat we sneller resultaten kunnen leveren wanneer de conversiepercentages zeer consistent zijn en nauwkeurigere resultaten kunnen leveren wanneer de conversiepercentages zeer variabel zijn.

Een simpel voorbeeld:

  • Eén origineel, één variant
  • 1000 proeven per dag voor elk
  • Werkelijk conversiepercentage van Variant (CvP) op lange termijn: 1%
  • Oorspronkelijk (constant) CvP: 3%
  • 'Nieuwheids'-effect voor variant: gebruikers klikken er vaker op omdat het nieuw is (bijv. 10% aan het begin van het experiment, wegebbend na enkele dagen.)

Dit kan resulteren in prestaties die er in de loop der tijd als volgt uit kunnen zien:

Chart: average conversion rate

De meeste tools geven het gemiddelde conversiepercentage weer (in rood). U ziet dat het gemiddelde conversiepercentage er erg lang over doet om het werkelijke conversiepercentage van 1% te benaderen. Het diagram laat ook de variant als winnend zien tot ongeveer dag 8.

Aan de andere kant lijkt wat we met deze hiërarchische modellen berekenen veel meer op de curve voor het dagelijkse CvP (in blauw). Omdat we willen vaststellen hoe consistent conversiepercentages zijn, wordt nu duidelijk dat ze eigenlijk zeer variabel zijn. Als gevolg daarvan is het, terwijl de variant gedurende een paar dagen wint, tegen dag 3 duidelijk dat de resultaten veel onzekerder zijn dan het gemiddelde CvP over de duur van het experiment zou beschrijven.

Wat is Bayesiaanse inferentie?

Bayesiaanse inferentie wil zeggen dat we gegevens waarover we al beschikken, gebruiken om betere aannames te kunnen doen over nieuwe gegevens. Naarmate we nieuwe gegevens ontvangen, verfijnen we ons 'model' van de wereld, waardoor we nauwkeurigere resultaten verkrijgen.

Hier is een praktische illustratie.

Stel u voor dat u uw telefoon in huis niet kunt vinden en u hoort die in een van de 5 kamers overgaan. U weet uit eerdere ervaringen dat u uw telefoon vaak in uw slaapkamer laat liggen.

Bij een frequentistische benadering zou het nodig zijn dat u stilstaat en luistert, in de hoop dat u van waar u staat (zonder te bewegen!) met voldoende zekerheid kunt zeggen in welke kamer de telefoon zich bevindt. En bovendien zou u de kennis over waar u meestal uw telefoon laat liggen, niet mogen gebruiken.

Aan de andere kant is een Bayesiaanse benadering goed afgestemd op ons gezonde verstand. Op de eerste plaats weet u dat u uw telefoon vaak in uw slaapkamer laat liggen, dus heeft u meer kans om de telefoon daar te vinden en die kennis mag u gebruiken. Op de tweede plaats kunt u, telkens wanneer de telefoon overgaat, een beetje dichter naar de kamer lopen waarvan u denkt dat de telefoon zich daar bevindt. Uw kansen om uw telefoon snel te vinden zijn veel groter.

Dat is interessant, maar kunt u Bayesiaanse statistieken duidelijker uitleggen?

Dat zouden we graag willen, maar we weten niet wat we beter zouden kunnen doen dan verschillende uitstekende statistici al hebben gedaan. Hier is een goed Engelstalig overzicht voor beginners.

Waarom gebruikt niet iedereen Bayesiaanse inferentie of deze geavanceerde modellen?

Daar zijn een paar redenen voor. Ten eerste zijn niet-Bayesiaanse methoden makkelijker te onderwijzen. Als gevolg hiervan worden ze traditioneel onderwezen bij inleidende statistieklessen. Bayesiaanse modellering vereist een meer diepgaande benadering van kansberekening, en bovendien vergt Bayesiaanse inferentie vrij dure rekenkracht. Het genereren van resultaten voor een enkele variant/doel-combinatie vereist tienduizenden (of meer) MCMC-iteraties (Markov Chain Monte Carlo), simulaties die de prestaties van elk van de varianten modelleren. Dit was tot voor kort niet haalbaar en zelfs nu kunnen veel van deze berekeningen alleen op grootschalige systemen worden berekend. Gelukkig is Google heel goed in dit soort schaalproblemen.

Met behulp van Bayesiaanse methoden is het nu ook haalbaar om geavanceerde modellen te gebruiken. Hoewel het mogelijk zou kunnen zijn enkele van deze modellen te gebruiken met een frequentistische benadering, zijn de correcties die nodig zijn om nauwkeurige resultaten weer te geven veel en veel moeilijker en biedt deze benadering nog steeds niet de voordelen die Bayesiaanse inferentie heeft.

Hoe lost Optimize deze problemen op?

Het interpretatieprobleem: Bayesiaanse statistieken kunnen de vraag beantwoorden 'hoe waarschijnlijk is deze variant beter dan wat ik had?' of 'hoe waarschijnlijk is deze variant het beste over het geheel genomen?'. De berekeningen zijn weliswaar complexer, maar de antwoorden komen meer overeen met hoe mensen denken.

Meekijken: omdat in het ontwerp van de modellen die we gebruiken rekening is gehouden met veranderingen in uw resultaten in de loop der tijd, is het geen probleem om naar de resultaten te kijken. Onze kansen worden voortdurend verfijnd naarmate we meer gegevens verzamelen.

Het probleem met meerdere vergelijkingen: omdat Bayesiaanse methoden de relatieve prestatie van alle varianten samen rechtstreeks berekenen, en niet alleen paarsgewijze vergelijkingen van varianten, hoeven experimentatoren niet meerdere varianten te vergelijken om te begrijpen hoe elk daarvan waarschijnlijk zal presteren. Bovendien vereisen Bayesiaanse methoden geen geavanceerde statistische correcties bij het bekijken van verschillende segmenten van de gegevens. Bij benaderingen om hypotheses te testen zijn statistische correcties echter wel nodig wanneer u op verschillende manieren naar de gegevens kijkt, maar de meeste tools doen dit niet. Het is altijd mogelijk dat door toeval 'heldere' resultaten worden geproduceerd als u uw gegevens in voldoende segmenten bekijkt, maar we proberen de kansen dat dit gebeurt te minimaliseren.

Snelheid en nauwkeurigheid: omdat we de prestaties van alle varianten in de loop der tijd nauwkeuriger samenvoegen (en niet alleen paarsgewijze vergelijkingen uitvoeren van de totalen), zijn we niet gebonden aan een frequentistische 'one-size-fits-all'-benadering. Zo zijn we vaak sneller als uw gegevens consistent zijn, met name in omgevingen met weinig volume, en zijn we nauwkeuriger wanneer uw gegevens dat niet zijn.

Verkeer verandert in de loop der tijd: we gebruiken geavanceerde modellen die ervan uitgaan dat de tijd de resultaten van uw experiment kan beïnvloeden. We houden rekening met die veronderstelling en nemen die mee in onze analyse om u de beste resultaten te geven die waarschijnlijk ook na verloop van tijd nog waar zijn.

Multivariate-tests: de benadering van Optimize kan gegevens opleveren over de prestatie van combinaties ten opzichte van elkaar en over de prestaties van een variant ten opzicht van verschillende combinaties. Als gevolg hiervan kunnen we alle combinaties onderzoeken, maar de resultaten veel sneller vinden dan bij een gelijkwaardige A/B-test.

Dit artikel uit de veelgestelde vragen maakt deel uit van een reeks artikelen uit de veelgestelde vragen over de statistieken en methodologie van Optimize. Dit zijn de andere veelgestelde vragen:

Was dit nuttig?
Hoe kunnen we dit verbeteren?
Zoeken
Zoekopdracht verwijderen
Zoeken sluiten
Google-apps
Hoofdmenu
Zoeken in het Helpcentrum
true
101337
false