Ako sa údaje ukladajú a zobrazujú

O vzorkovaní údajov

Ďalšia: [GA4] Automatické rozšírené množiny údajov pre Google Analytics 360

Čo je vzorkovanie údajov

Vzorkovanie údajov je proces analýzy údajov, pri ktorom sa analyzuje určitá podmnožina údajov s cieľom získať zmysluplné informácie z väčšej množiny údajov. Tento proces umožňuje získať údaje rýchlejšie s minimálnym vplyvom na kvalitu údajov.

Ak by ste napríklad chceli odhadnúť počet stromov na ploche s rozlohou 100 akrov, pričom stromy sú pomerne rovnomerne rozložené, mohli by ste spočítať počet stromov na 1 akri a vynásobiť ho číslom 100 alebo by ste mohli spočítať stromy na ploche 0,5 akra a vynásobiť ich číslom 200, čím by ste získali presné údaje pre celých 100 akrov.

Prečo sa vyskytuje vzorkovanie údajov

V službe Google Analytics môže vzorkovanie údajov nastať, keď počet udalostí použitých na vytvorenie reportu, prieskumu alebo žiadosti prekročí limit kvóty pre vaše vlastníctvo. Keď k tomu dôjde, Analytics použije časť údajov a aplikuje ich širšie s cieľom poskytnúť smerodajne presné výsledky, ktoré reprezentujú všetky vaše údaje.

Keď sa vo výsledkoch používa vzorkovanie, informuje o tom ikona kvality údajov, ktorá uvádza percento údajov použitých pri výpočte výsledkov. Čím väčšia je použitá vzorka, tým sú výsledky presnejšie.

Aké sú limity

V prípade štandardných vlastníctiev v službe Google Analytics je limit kvóty pre dopyty na úrovni udalostí 10 miliónov udalostí a v prípade vlastníctiev v službe Google Analytics 360 je to až 1 miliarda udalostí.

Vlastníctva v službe Google Analytics 360 majú počiatočnú predvolenú hodnotu 100 miliónov udalostí na dopyt, vďaka čomu vám poskytujú rýchlejšie a smerodajne presné výsledky. Keď je potrebná vyššia presnosť, prostredníctvom ikony kvality údajov získate v sekcii Preskúmať prístup k vyššiemu limitu vzorkovania tak, že vyberiete Podrobnejšie výsledky.

Poznámka: Filtrovanie veľkých množín údajov podľa krajiny môže viesť k vzorkovaniu údajov v štandardných reportoch a prieskumoch služby Google Analytics, a to aj pri používaní rozšírených požiadaviek na údaje. Dochádza k tomu, pretože filtrovanie aktivuje rôzne metódy spracúvania údajov, ktoré pri spracúvaní množín údajov presahujúcich 100 miliónov udalostí s väčšou pravdepodobnosťou povedú k vzorkovaniu. Ak chcete minimalizovať vzorkovanie, zvážte skrátenie obdobia reportov alebo použitie alternatívnych metód analýzy, ak je to potrebné.

Údaje bez vzorkovania

V prípade reportov bez vzorkovania odhaduje Google Analytics presné jedinečné počty pre najčastejšie používané metriky, ako sú počty používateľov a relácií, pomocou algoritmu HyperLogLog++ (HLL++). Používanie algoritmu HLL++ zaisťuje lepšiu výkonnosť, vyššiu presnosť odhadov a nižšie hranice chýb. Okrem toho môžete HLL++ používať s údajmi zo služby Google Analytics v nástroji BigQuery. Prečítajte si viac o približnom odhade jedinečného počtu v službe Google Analytics.

Poznámka: Vo väčšine prípadov sú miery nezrovnalostí nižšie ako 1 %, ale môžu byť vyššie, a to najmä pri kombinovaní viacerých metrík HLL++. Google Analytics používa náčrt HLL++ 14. Prečítajte si viac o náčrtoch HLL++.

Pomohlo vám to?

Ako ju môžeme zlepšiť?