Štatistická metodológia na pozadí experimentov

Akým spôsobom počíta tím v oblasti experimentov intervaly spoľahlivosti a štatistickú významnosť?

Opätovné vzorkovanie Jackknife sa používa v rámci segmentovaných údajov na výpočet výberového rozptylu percentuálnej zmeny príslušnej metriky. Následne sa spustí obojstranné testovanie s použitím 95 % intervalu spoľahlivosti.

Prečo segmentovať údaje?

Segmentáciou údajov znižujete vplyvy menších chýb pozorovania. Ďalšie informácie, prečo je segmentácia údajov užitočná, nájdete v tomto článku.

Údaje nie sú normálne distribuované. V prípade dostatočného množstva pozorovaní na segment však budú segmentované údaje viac-menej normálne distribuované na základe centrálnej limitnej vety. S cieľom zohľadniť prípady nedostatočného množstva pozorovaní na segment sa na výpočet intervalu spoľahlivosti používa spôsob Jackknife.

Prečo používať opätovné vzorkovanie Jackknife?

Opätovné vzorkovanie Jackknife je štandardom v rámci Googlu. Ide totiž o univerzálny spôsob s vysokou úrovňou pokrytia. Je tiež účinný v oblasti zisťovania nezvyčajných hodnôt a znižovania ovplyvnenia odhadovanej vzorky. Obzvlášť účinný je aj v prípadoch, keď na získanie presného odhadu pomocou centrálnej limitnej vety chýba dostatok údajov. V rámci segmentovaných údajov sa preto používa na dodatočné zvýšenie presnosti našich intervalov spoľahlivosti.

Všeobecný prehľad o opätovnom vzorkovaní Jackknife nájdete v tomto článku. Ďalšie podrobnosti s vysvetlením účinnosti tohto spôsobu si môžete prečítať v tomto článku.

Môžu externí inzerenti po skončení viacerých experimentov zlúčiť údaje o ich výkonnosti a prepočítať štatistiky na úrovni agregácie?

Nie, pretože nemajú prístup k údajom jednotlivých používateľov a nemôžu tak opätovne vytvoriť segmenty a spustiť algoritmus Jackknife. Momentálne neexistujú žiadne interné nástroje, pomocou ktorých by sa to dalo v mene klientov realizovať.

Ovplyvňuje zacielenie to, ako sa rozdelenie podielu aukcie prejaví v experimente a pôvodnej kampani?

Zacielenie toto rozdelenie neovplyvňuje. Rozdelenie sa v rámci vhodných aukcií prejaví ešte pred použitím zacielenia. Napríklad rozdelenie 50 : 50 znamená, že experiment je pridaný do rovnakého počtu aukcií ako pôvodná kampaň.

Aké sú podmienky zabezpečenia pravdivého A/A testu?

Počas trvania A/A testu sú experiment a pôvodná kampaň identické (neexistujú rozdiely v rámci reklám kampaní, reklamných skupín, nastavení či schválení reklám). Akékoľvek zmeny počas A/A testu by museli byť naraz vykonané v experimente aj pôvodnej kampani.

Aké sú očakávané výsledky A/A testu?

V rámci kliknutí, zobrazení, CTR alebo CZK by nemali nastať žiadne štatisticky významné rozdiely.

V čom sa odlišujú testovacie skupiny založené na vyhľadávaní od tých, čo sú založené na súboroch cookie?

Ide o dve odlišné možnosti, ako pristupovať k používateľovi. V prípade experimentálnych testovacích skupín založených na vyhľadávaní sú používatelia náhodne zaradení do experimentu alebo pôvodnej kampane vždy, keď dôjde k vyhľadávaniu. Ak ten istý používateľ vyhľadáva viackrát, môže sa mu zobraziť experiment aj pôvodná kampaň. V prípade experimentálnych testovacích skupín založených na súboroch cookie sa používateľom môže zobraziť len jedna verzia vašej kampane bez ohľadu na to, koľkokrát vyhľadávajú. Takto je možné zabrániť vplyvu ostatných faktorov na vaše výsledky.

Koľko segmentov sa používa?

V prípade kontroly sa používa dvadsať segmentov a v rámci prístupu tiež. Ak je segmentov príliš veľa, dosiahnutie štatisticky významných výsledkov môže trvať veľmi dlho. Ak je však segmentov príliš málo, výpočty intervalov spoľahlivosti nemusia byť presné. Ide teda o primeranú rovnováhu medzi praktickými požiadavkami a štatistickou silou.

Pomohlo vám to?

Ako ju môžeme zlepšiť?