De statistische methodologie achter experimenten

Welke methode gebruikt het experimentteam om zekerheidsintervallen en statistische significantie te berekenen?

De steekproefvariantie van de procentuele verandering van een statistiek wordt berekend door Jackknife-resampling toe te passen op bucket-gegevens. Vervolgens wordt een two-tailed significantietoetsing uitgevoerd met een zekerheidsinterval van 95%.

Waarom de gegevens in een bin onderbrengen?

Door de gegevens in een bin onder te brengen verminderen de effecten van kleine waarnemingsfouten. Als u meer informatie wilt over waarom gegevens in een bin onderbrengen nuttig is, kunt u het beste hier beginnen (Engelstalig).

Zelfs als de gegevens geen normale verdeling hebben, hebben de gegevens in de bins een min of meer normale verdeling op basis van centrale limietstelling, echter alleen als er voldoende waarnemingen per bin zijn. Om rekening te houden met gevallen waarin er niet genoeg waarnemingen per bin zijn, wordt de Jackknife-methode gebruikt om het zekerheidsinterval te berekenen.

Waarom Jackknife-resampling gebruiken?

Jackknife-resampling is de standaard bij Google omdat het een veelzijdige methode is die een hoge mate van dekking biedt. De methode is ook effectief om uitschieters te detecteren en de vertekening van de steekproefschatting te verminderen. Daarnaast is Jackknife-resampling bijzonder handig in situaties waarin er onvoldoende gegevens zijn om met de centrale limietstelling een nauwkeurige schatting te krijgen. Daarom wordt de methode voor binned gegevens gebruikt om de nauwkeurigheid van onze zekerheidsintervallen verder te verhogen.

Een algemeen overzicht van Jackknife-resampling vindt u hier (Engelstalig). Als u meer uitleg wilt over de bruikbaarheid, vindt u in dit document meer informatie (Engelstalig).

Kunnen externe adverteerders de prestaties van meerdere experimenten achteraf verzamelen en de statistieken op verzameld niveau herberekenen?

Nee, adverteerders hebben geen toegang tot gegevens op gebruikersniveau om opnieuw bins te kunnen maken en het Jackknife-algoritme uit te voeren. Op dit moment zijn er geen interne tools om dit namens onze klanten te doen.

Is targeting van invloed op hoe de verdeling van het veilingaandeel wordt toegepast op het experiment en de originele campagne?

Targeting heeft geen invloed op de verdeling. De verdeling wordt op in aanmerking komende veilingen toegepast voordat targeting wordt toegepast. Een verdeling van 50:50 betekent bijvoorbeeld dat het experiment en de originele campagne aan hetzelfde aantal veilingen deelnemen.

Wat zijn de voorwaarden om een echte A/A-test te garanderen?

Een A/A-test is een test waarbij het experiment en de originele campagne identiek zijn gedurende de duur van de test (geen verschil in campagneadvertenties/advertentiegroepen/instellingen enzovoort, en geen verschillen in goedkeuringen van advertenties). Wijzigingen die tijdens de A/A-test worden aangebracht, moeten tegelijkertijd in de experimentarm en de originele campagne worden doorgevoerd.

Wat zijn de verwachte resultaten van een A/A-test?

Er mogen geen statistisch significante verschillen zijn in klikken, vertoningen, klikfrequentie of CPC.

Wat is het verschil tussen een experimentgroep op basis van zoekopdrachten en een op cookies gebaseerde experimentgroep?

Dit zijn twee verschillende opties om te beslissen welke behandeling een gebruiker zal krijgen. Met op zoeken gebaseerde experimentgroepen worden gebruikers telkens wanneer er wordt gezocht willekeurig in het experiment of in de oorspronkelijke campagne geplaatst. Het is wel mogelijk dat dezelfde gebruiker zowel het experiment als de oorspronkelijke campagne te zien krijgt als hij meerdere keren zoekt. Met op cookies gebaseerde experimentgroepen kunnen gebruikers slechts één versie van uw campagne zien, ongeacht het aantal keren dat ze zoeken. Hierdoor kunnen andere factoren uw resultaten minder beïnvloeden.

Hoeveel bins worden er gebruikt?

Zowel voor de controlegroep als voor de experimentgroep worden twintig bins gebruikt. Als er te veel bins zijn, kan het te lang duren om statistisch significante resultaten te krijgen. Als er te weinig bins zijn, zijn de berekeningen voor het zekerheidsinterval mogelijk niet juist. Deze instelling is een goede balans tussen praktische vereisten en statistische kracht.

Was dit nuttig?

Hoe kunnen we dit verbeteren?