Paano gumagana ang pagsa-sample sa Google Analytics

Background

Ang pagsa-sample sa Google Analytics (GA) o sa anumang software ng web-analytics ay tumutukoy sa kasanayan ng pagpili ng subset ng data mula sa trapiko ng iyong website at pag-uulat sa mga trend na available sa sample na hanay na iyon. Malawakang ginagamit ang pagsa-sample sa mga pag-aaral sa istatistika dahil ang pag-aaral sa isang subset ng data ay nagbibigay ng mga resultang katulad ng sa pag-aaral ng lahat ng data. Bilang karagdagan, pinapabilis ng pagsa-sample ang pagproseso ng mga ulat kapag napakarami ng data at napapabagal nito ang mga query sa ulat.

Pagsa-sample ng session

Paano gumagana ang mga karaniwang ulat

Ang bawat web property sa loob ng Google Analytics ay nag-iimbak ng kopya ng lahat ng hindi na-filter na data na nauugnay sa natatanging web property ID. Ang bawat view ng pag-uulat na nauungay sa isang property ay gumagawa ng isang hanay ng mga hindi naka-sample, pauna nang pinagsama-samang mga talahanayan ng data, na araw-araw pinoproseso. Umaasa ang hanay ng mga karaniwang ulat sa Google Analytics sa paunang pinagsama-samang talahanayang ito upang makapaghatid ng mga hindi naka-sample na ulat sa tamang oras.
Bukod sa mga karaniwang ulat, maaaring magbigay ng mga ad-hoc na query sa Google Analytics ang mga user. Kasama sa mga karaniwang query ang paglalapat ng Mga Segment sa mga karaniwang ulat, paglalapat ng pangalawang dimensyon, o pagpapatakbo ng custom na ulat. Kapag nagbigay ng isang query ang front-end, sisiyasatin ng GA ang hanay ng paunang pinagsama-samang talahanayan upang tukuyin kung ganap na matutugunan ng umiiral nang mga kabuuan ang query. Kung hindi, babalik ang GA sa raw data ng session upang iproseso at i-compute ang pinagsama-samang data habang gumagana. Kung na-sample ang resultang ulat, palagi kang makakita ng dilaw na kahon sa tuktok ng ulat na nagsasaad na: Batay ang ulat na ito sa N na pagbisita.

Paano gumagana ang mga ad-hoc na ulat

Tulad ng natalakay, sa mga sitwasyon kung saan hindi matugunan ng mga umiiral nang kabuuan ang query ng ulat (hal. paunang pinagsama-samang talahanayan), babalik ang GA sa raw data ng session upang i-compute ang hiniling na impormasyon. Upang mabawasan ang latency, maaaring i-sample ng GA ang data ng session para sa mga nasabing query. Sa partikular, sinisiyasat ng GA ang bilang ng mga pagbisita para sa tinukoy na hanay ng petsa sa antas ng web property. Kung ang bilang ng mga pagbisita sa web property sa tinukoy na hanay ng petsa ay lumalampas sa 250K pagbisita1, gagamit ang GA ng algorithm ng pagsa-sample na gumagamit ng sample na hanay ng 250K pagbisita, na tugma sa pamamahagi ng mga pagbisita ayon sa araw para sa napiling hanay ng petsa. Samakatuwid, nag-iiba ang rate ng pagsa-sample ng session para sa bawat query depende sa bilang ng mga pagbisitang kasama sa napiling hanay ng petsa para sa tinukoy na web property. Tandaan, mako-configure ang laki ng sample sa pagitan ng 1K at 500K pagbisita; ang default na laki ay 250K.

Mga implikasyon para sa mga na-filter na view at Mga Segment

Mahalagang tandaan na nagaganap ang pagsa-sample ng session sa web property level, hindi sa view level. Para sa mga ad-hoc na query, ang sample na hanay ng 250K pagbisita2 ay tinutukoy sa antas ng web property, at pagkatapos ay inilalapat ang mga filter sa antas ng view. Dahil dito, ang mga view na pini-filter ay maaaring magkaroon ng mas kaunting pagbisita sa na-sample na kalkulasyon. Sa katulad na paraan, inilalapat ang Mga Segment pagkatapos ma-sample ang 250K pagbisita, kaya mas kaunting mga pagbisita ang maaaring kasama sa kalkulasyon.
Sa pangkalahatan, ang pagsa-sample ng session ay isang napakabisang paraan ng pagbabawas ng latency ng query habang nagpapanatili ng mataas na antas ng katumpakan. Sa partikular, gumagana nang napakahusay ang diskarte ng GA sa pagsa-sample para sa mabilis at nangungunang N na query at iba pang mga query na may malawak at pantay na pamamahagi sa kabuuan ng mga pagbisita. Ang pagsa-sample ng session ay maaaring maging hindi masyadong tumpak para sa mahihirap na problema, gaya ng pagsusuri sa isang keyword at malawakang pagsusuri, o mga sitwasyong may maliit na pag-filter ng dimensyon, gaya ng pagsusuri sa mga lubos na na-filter na view o conversion kung saan mga conversion ang bumubuo ng maliit na bahagi ng mga pagbisita. Para sa mga ganoong uri ng pagsusuri, mangyaring sumangguni sa seksyon tungkol sa pag-access sa mga hindi naka-sample na ulat gamit ang mga GA Premium account.

Mga kabuuan ng halaga ng dimensyon

Paano gumagana ang mga karaniwang ulat

Tulad ng natalakay, ang paunang pinagsama-samang talahanayan sa bawat view ay pinoproseso araw-araw. Nag-uulat ang mga talahanayang ito ng data tungkol sa lahat ng session, bagama't may limitasyon sa bilang ng mga row/natatanging value sa mga paunang pinagsama-samang talahanayan3. Pinagsasama-sama ng GA ang data kapag may mahigit sa 75,000 row ng data sa isang talahanayan sa isang araw. Sa madaling salita, kapag may mahigit sa 75,000 value para sa isang partikular na talahanayan, kukunin ng GA ang nangungunang N4 na value at gagawa ito ng pinagsama-samang entry para sa mga natitirang value na may label na (Iba pa).

Mga implikasyon para sa mga kahilingan sa maraming araw

Mahalagang tandaan na tinutukoy ang nangungunang N na entry bawat araw. Halimbawa, kung pipili ka ng anumang isang araw sa ulat sa Mga Pahina, makakakita ka ng hindi hihigit sa 75,000 row; pinagsasama-sama ang lahat ng iba pang pahina sa kategoryang (Iba pa). Samakatuwid, ang isang pahinang nakalagay sa kategoryang (Iba pa) sa isang araw ay maaaring hindi mailagay sa kategoryang (Iba pa) sa isa pang araw. Kaya kapag nagpapatakbo ng ulat para sa isang hanay ng petsa na may maraming araw, maaari kang makakita ng mga hindi pagkakatugma dahil ang ilang pahina (o ibang value ng dimensyon) sa malawakan ay maaaring kasama sa bucket na (Iba pa) o sa sarili nitong row sa kabuuan ng mga araw.
Bukod pa rito, para sa mga kahilingan sa maraming araw, ang maximum na bilang ng mga row bawat araw ay (1M/n), kung saan ang n ay ang bilang ng mga araw sa query. Samakatuwid, para sa anumang kahilingang may hanay ng petsa na kinabibilangan ng mahigit sa 14 na araw, potensyal na babawasan ng GA ang bilang ng mga row na binabasa sa araw na iyon, kung may kumpletong 75K row ng data. Halimbawa:
  • Ang isang ulat para sa nakaraang 30 araw ay magkakaroon ng tinatayang 30,000 row bawat araw (hal. 1,000,000/30).
  • Ang isang ulat para sa nakaraang 60 araw ay magkakaroon ng maximum na 16,000 row bawat araw (hal. 1,000,000/60).
Dahil kadalasang nauulit ang mga value ng dimensyon (hal. mga natatanging URL at keyword ng campaign) sa kabuuan ng mga tinukoy na araw, karaniwang naaapektuhan lang ng hangganang ito ang mga site na may maraming natatanging nilalaman at/o keyword.

Matuto nang higit pa tungkol sa kung paano pinagsasama-sama ang data sa ilalim ng (Iba pa)

Paano gumagana ang mga ad-hoc na ulat

Sa mga sitwasyon kung saan hindi matugunan ng mga umiiral nang kabuuan ang query ng user (hal., paunang pinagsama-samang talahanayan), babalik ang GA sa raw data ng session upang i-compute ang hiniling na impormasyon. Sa sitwasyong iyon, magbabalik ang GA ng maximum na 1M natatanging halaga ng dimensyon na kasama sa sample na hanay para sa query.

Iba pang mga ulat

Pagsa-sample at mga ulat sa multi-channel funnel

Nakabatay ang mga ulat sa multi-channel funnel sa 1M conversion. Kung ang bilang ng mga conversion ay lumalampas sa 1M para sa tinukoy na hanay ng petsa, magsa-sample ang GA ng hanggang 1M conversion sa antas ng view. Tandaan na nagaganap ang pagsa-sample sa antas ng view, hindi sa web property, para sa mga ulat ng MCF.
Bilang karagdagan, ang maximum na bilang ng mga natatanging daanan ng conversion ay 200K bawat araw. Pinagsasama-sama ang lahat ng iba pang daanan ng conversion sa ilalim ng (Iba pa).

Pagsa-sample at mga ulat sa paglalarawan ng daloy

Binubuo ang mga ulat sa paglalarawan ng daloy (kasama ang Daloy ng Mga Bisita at Daloy ng Layunin) mula sa isang subset ng 100K pagbisita para sa isang tinukoy na hanay ng petsa. Katulad ng karaniwang pagsa-sample ng session ng ulat, sina-sample ang 100K pagbisita sa web property level. Samakatuwid, ang paglalapat ng mga filter ng view ng Mga Segment ay maaaring lalo pang makapagpaliit sa laki ng sample na hanay.
Dahil dito, ang mga ulat sa paglalarawan ng daloy, kasama ang pagpasok, paglabas at mga rate ng conversion ay maaaring mag-iba mula sa mga resulta sa mga karaniwang ulat sa nilalaman at conversion, na nakabatay sa ibang sample na hanay.

Pagsa-sample ng koleksyon ng data

Kung may milyung-milyong pageview ang iyong website bawat buwan, maaari mong isaalang-alang na i-configure ang iyong tracking code upang i-sample ang iyong data, gamit ang method na _setSampleRate. Sa pamamagitan ng pagsa-sample ng mga hit para sa iyong site, magkakaroon ka ng mga maaasahang resulta ng ulat habang nananatili sa loob ng mga limitasyon ng hit para sa iyong account. Ang limitasyon sa bilang ng mga hit para sa isang karaniwang GA account ay 10M hit/buwan. Para sa mga Premium account, ang limitasyon ng hit ay 1B+ hit/buwan. Kapag ipinapatupad ang pagsa-sample ng koleksyon ng data, itinatapon ang mga hit sa panig ng client at hindi kailanman kinokolekta o pinoproseso ng Google Analytics. Samakatuwid, hindi mababawi ang mga itinapong hit sa pamamagitan ng mga Premium na hindi na-sample na ulat. Gayundin, hindi katulad ng pagsa-sample ng session, hindi tinutuos ng Google Analytics ang mga resulta ng ulat batay sa rate ng sample ng koleksyon ng data. Dahil doon, ang isang dagdag na pakinabang ng pagsa-sample ng koleksyon ng data ay maaaring mas mabilis ang mga oras ng pagtugon ng ulat nang mas may kaunting data sa account.
Tuluy-tuloy na nagaganap ang pagsa-sample ng koleksyon ng data sa kabuuan ng mga natatanging bisita. Samakatuwid, sa sandaling napili na ang isang user para sa koleksyon ng data, ang lahat ng pagbisita (kasama ang mga pagbisita sa hinaharap) para sa user ay magpapadala ng data sa GA. Para sa mga mobile application, nangangahulugan ito na ipapadala ng mga pag-download sa application na napili para sa koleksyon ng data ang lahat ng data sa GA, habang ang iba pang mga instance ng application ay hindi magpapadala ng anumang mga hit.
Tandaan na kahit na hindi isa-sample ang data para sa iyong site kapag kinolekta ito, ang ilang partikular na uri ng mga ulat ay makakaranas ng iba pang mga uri ng pagsa-sample, kasama ang pagsa-sample ng session at pagsasama-sama ng halaga ng dimensyon, batay sa katangian ng query. Tingnan kung paano gumagana ang mga ad-hoc na ulat para sa pagsa-sample ng session.

1 Tingnan ang pasasaayos sa laki ng sample. Naisasaayos ang laki ng sample mula 1K hanggang 500K pagbisita.

2 Tingnan ang pagsasaayos sa laki ng sample.

3 Maaaring tumutugma sa isang ulat o maraming ulat ang mga talahanayan. Ang mga talahanayan ay maaaring maglaman ng isang dimensyon (hal. keyword) o maraming dimensyon (hal. ad group at campaign). Sa pinakadetalyadong antas, maglalaman ang mga ulat ng hindi hihigit sa 75K row ng data. Ang mas matataas na antas sa pagkakasunud-sunod ng talahanayan, gaya ng ad group, ay maaaring maglaman ng mas kaunti sa 75K row.

4 Gaya ng natukoy sa pamamagitan ng nauugnay na sukatan para sa ulat/talahanayan (hal. # (na) pagbisita, # (na) kaganapan, # (na) page view, # (na) transaksyon).