Metodologia estadística dels experiments

Quin mètode utilitza l'equip encarregat dels experiments per calcular els intervals de confiança i la significació estadística?

S'aplica el remostreig jackknife a les dades separades en diferents conjunts per calcular la variància mostral del canvi percentual d'una mètrica. A continuació, es fa una prova de significació bilateral amb un interval de confiança del 95%.

Per què se separen les dades en diferents conjunts?

Separar les dades en diferents conjunts redueix els efectes d'errors d'observació menors. Si voleu obtenir més informació sobre per què és útil la separació de dades en diferents conjunts, aquest enllaç és un bon lloc per començar (en anglès).

Encara que les dades no tinguin una distribució normal, les dades separades en diferents conjunts es distribueixen més o menys normalment d'acord amb el teorema del límit central, sempre que hi hagi prou observacions per conjunt separat. Per tenir en compte els casos en què no hi ha prou observacions per conjunt separat, s'utilitza el mètode jackknife per calcular l'interval de confiança.

Per què s'utilitza el remostreig jackknife?

El remostreig jackknife és l'estàndard a Google perquè és un mètode versàtil que proporciona un nivell alt de cobertura. També és eficaç per detectar valors aberrants i reduir el biaix de l'estimació de la mostra. A més, és especialment útil en situacions en què no hi ha prou dades per obtenir una estimació precisa mitjançant el teorema del límit central, per la qual cosa s'utilitza en les dades separades en diferents conjunts per augmentar encara més la precisió dels nostres intervals de confiança.

Obteniu informació general sobre el remostreig jackknife i més explicacions sobre la seva utilitat.

Els anunciants externs poden agregar el rendiment de diversos experiments un cop s'han dut a terme i tornar a calcular les estadístiques amb les dades agregades?

No, els anunciants no tenen accés a les dades del nivell d'usuari per tornar a crear conjunts separats i executar l'algoritme jackknife. De moment, no hi ha eines internes per fer-ho en nom dels nostres clients.

La segmentació afecta la manera com s'aplica la divisió del percentatge de subhasta a l'experiment i a la campanya original?

La segmentació no afecta la divisió, la qual s'aplica a les subhastes aptes abans d'aplicar-hi la segmentació. Per exemple, una divisió de 50:50 significa que l'experiment i l'original participaran en el mateix nombre de subhastes.

Quines són les condicions necessàries perquè una prova sigui realment una prova A/A?

Una prova A/A és aquella en què l'experiment i la campanya original són idèntics mentre dura la prova (no hi ha diferències en els anuncis, els grups d'anuncis, la configuració, etc., de les campanyes ni en les aprovacions dels anuncis). Qualsevol canvi fet durant la prova A/A s'hauria d'aplicar alhora tant a la variant experimental com a l'original.

Quins resultats s'esperen d'una prova A/A?

No hi hauria d'haver diferències estadísticament significatives en els clics, les impressions, la CTR ni el CPC.

Quina és la diferència entre la divisió basada en cerques i la divisió basada en galetes?

Són dues opcions diferents per decidir quin tractament rebrà un usuari. Amb les divisions d'experiments basades en cerques, es col·loquen els usuaris aleatòriament a l'experiment o bé a la campanya original cada cop que es produeix una cerca. Si un usuari fa la mateixa cerca diverses vegades, és possible que vegi tant l'experiment com la campanya original. Amb les divisions d'experiments basades en galetes, pot ser que els usuaris només vegin una versió de la campanya, independentment del nombre de vegades que facin una cerca. Això pot ajudar a impedir que els resultats es vegin afectats per altres factors.

Quants conjunts separats s'utilitzen?

S'utilitzen vint conjunts separats al braç de control i vint conjunts separats al braç de tractament. Si hi ha massa conjunts separats, es podria trigar massa a obtenir resultats estadísticament significatius. Si no hi ha prou conjunts separats, podria ser que els càlculs de l'interval de confiança no fossin precisos. Això suposa un bon equilibri entre els requisits pràctics i la potència estadística.

Ha estat útil?

Com ho podem millorar?