Den statistiske metoden bak eksperimenter

Hvilken metode bruker teamet for eksperimenter når de skal beregne konfidensintervaller og statistisk signifikans?

Jackknife-resampling brukes på samlede data for å beregne prøvevariansen for den prosentvise endringen av en beregning. Tohalet signifikanstesting utføres deretter med konfidensintervallet på 95 %.

Hvorfor samles dataene?

Samling av data reduserer effektene av mindre observasjonsfeil. Hvis du vil vite mer om hvorfor datasamling er nyttig, er dette et godt sted å starte.

Selv om dataene ikke er normalfordelt, blir de samlede dataene grovt normalfordelt basert på sentralgrenseteoremet, så sant det finnes nok observasjoner per samling. For å redegjøre for tilfeller der det ikke finnes nok observasjoner per samling, brukes jackknife-metoden for å beregne konfidensintervallet.

Gode grunner til å bruke jackknife-resampling

Jackknife-resampling er standarden hos Google fordi det er en allsidig metode som gir et høyt dekningsnivå. Det er også en effektiv metode for å oppdage isolerte forekomster og redusere partiskhet i samplingsanslaget. Metoden er i tillegg svært nyttig i situasjoner der det ikke finnes nok data til å få en nøyaktig beregning basert på sentralgrenseteoremet. Metoden brukes da på de samlede dataene for å gjøre konfidensintervallene våre enda mer nøyaktige.

Du finner en generell oversikt over jackknife-resampling her. Hvis du vil ha mer detaljert informasjon om nytteverdien, kan du lese dette dokumentet.

Kan eksterne annonsører samle resultatdata for flere eksperimenter etter kjøring og beregne statistikken på nytt samlet sett?

Nei, annonsører har ikke tilgang til data på brukernivå for å gjenopprette samlinger og kjøre jackknife-algoritmen. Det finnes foreløpig ingen interne verktøy for å gjøre dette på vegne av kundene våre.

Påvirker målrettingen hvordan delingen av auksjonsandel blir brukt i eksperimentet og den opprinnelige kampanjen?

Målrettingen påvirker ikke delingen. Delingen tas i bruk for kvalifiserte auksjoner før målrettingen tas i bruk. En deling på 50 : 50 innebærer for eksempel at eksperimentet og den opprinnelige kampanjen inngår i samme antall auksjoner.

Hva er betingelsene for å sørge for en sann A/A-test?

En A/A-test er en test der eksperimentet og den opprinnelige kampanjen er identiske i løpet av testens varighet (ingen forskjeller i annonsene i kampanjen / annonsegruppene / innstillingene osv., og ingen forskjeller i annonsegodkjenninger). Eventuelle endringer som gjøres i løpet av A/A-testen, må gjøres i både eksperimentet og de opprinnelige kampanjene samtidig.

Hvilke resultater forventes fra en A/A-test?

Det skal ikke være statistisk signifikante forskjeller i klikk, visninger, klikkfrekvens eller CPC.

Hva er forskjellen mellom søkebasert deling og deling basert på informasjonskapsler?

Dette finnes to ulike alternativer for å avgjøre hvilken behandling en bruker skal få. Med søkebasert eksperimentdeling plasseres brukerne vilkårlig i enten eksperimentet eller den opprinnelige kampanjen hver gang noen legger inn et søk. Hvis en bruker søker flere ganger, kan vedkommende komme til å se både eksperimentet og den opprinnelige kampanjen. Med informasjonskapselbasert eksperimentdeling kan det hende at brukerne bare kan se én versjon av kampanjen din, uansett hvor mange ganger de søker. Dette er med på å sikre at andre faktorer ikke påvirker resultatene dine.

Hvor mange samlinger brukes?

Det brukes 20 samlinger i kontrollgruppen og 20 samlinger i eksperimentgruppen. Hvis det finnes for mange samlinger, kan det ta for lang tid å få statistisk signifikante resultater. Hvis det finnes for få bøtter, kan det hende at konfidensintervallberegningene blir unøyaktige. Med dette treffes det en god balanse mellom praktiske behov og statistisk effektivitet.

Var dette nyttig for deg?

Hvordan kan vi forbedre den?