Paano gumagana ang pagsa-sample

Ang pagsa-sample sa Google Analytics (GA) ay ang kasanayan ng pagpili ng subset ng data mula sa iyong trapiko at pag-uulat sa mga trend na available sa hanay ng sample na iyon. Ang pagsa-sample ay kadalasang ginagamit sa pagsusuri ng istatistika dahil ang mga resulta ng pagsusuri ng isang subset ng data ay katulad ng mga resulta ng pagsusuri sa lahat ng data. Dagdag pa rito, pinapabilis ng pagsa-sample ang pagpoproseso ng mga ulat kapag napakarami ng data at napapabagal nito ang mga query sa ulat.

Sa artikulong ito:

Pagsa-sample ng session

Paano gumagana ang mga standard na ulat

Ang bawat property sa loob ng Google Analytics ay nag-iimbak ng kopya ng lahat ng hindi na-filter na data na nauugnay sa isang natatanging numero ng property. Ang bawat view ng pag-uulat na nauugnay sa isang property ay gumagawa ng hanay ng mga hindi na-sample at paunang pinagsama-samang talahanayan ng data, na pinoproseso araw-araw. Ang mga paunang pinagsama-samang talahanayan ay ginagamit upang mabilis na ipakita ang mga hindi naka-sample na ulat.

Bukod sa mga karaniwang ulat, maaaring magbigay ng mga ad-hoc na query sa Google Analytics ang mga user. Ang mga karaniwang query ay kinabibilangan ng paglalapat ng mga segment sa mga karaniwang ulat, paglalapat ng pangalawang dimensyon o pagpapatakbo ng custom na ulat. Kapag nag-isyu ang front-end ng isang query, sinusuri ng GA ang hanay ng mga paunang pinagsama-samang talahanayan upang matukoy kung maaaring ganap na matugunan ng query ang mga umiiral nang pinagsama-sama. Kung hindi, babalik ang GA sa raw na data ng session upang iproseso at kalkulahin ang pinagsama-samang data nang mabilisan. Kung ang resultang pag-uulat ay na-sample, makakakita ka ng isang dilaw na kahon sa itaas ng ulat na nagsasabing, Batay sa N session ang ulat na ito.

Paano gumagana ang mga ulat ng ad-hoc

Kung kailangan ng GA na kalkulahin ang pinagsama-samang data nang mabilisan upang matugunan ang query ng ulat, maaari itong mag-sample ng raw na data ng session upang mabawasan ang latency. Sa partikular, sinisiyasat ng GA ang bilang ng mga session para sa napiling hanay ng petsa sa antas ng property. Kung ang bilang ng mga session sa property sa partikular na hanay ng petsa ay lalampas sa 250K session1, magpapatupad ang GA ng algorithm ng pagsa-sample na gumagamit ng sample na hanay ng 250K, proporsyonal sa pamamahagi ng mga session ayon sa araw para sa napiling hanay ng petsa. Kaya, nag-iiba ang rate ng pagsa-sample ng session sa bawat query depende sa bilang ng mga session na kasama sa napiling hanay ng petsa para sa partikular na property. Tandaan na ang laki ng sample ay maaaring naka-configure na maging alinman mula 1K hanggang 500K; 250K ang default na laki.

Mga implikasyon para sa mga naka-filter na view at segment

Nangyayari ang pagsa-sample ng session sa antas ng property, hindi sa antas ng view. Para sa mga query ng ad-hoc, ang hanay ng sample na 250K session2 ay natutukoy sa antas ng property, at pagkatapos ay ilalapat ang mga filter na antas ng view. Dahil dito, ang mga view na na-filter ay maaaring may mas kaunting session na kasama sa na-sample na pagkalkula. Katulad nito, inilalapat ang mga segment pagkatapos ma-sample ang 250K session, kaya mas kaunting session ang maaaring maisama sa pagkalkula.

Sa pangkalahatan, binabawasan ng pagsa-sample ng session ang latency ng query habang pinapanatili ang isang mataas na antas ng katumpakan. Ang pagsa-sample ng Google Analytics ay mahusay na gumagana para sa mabilis, nangungunang N na mga query at iba pang mga query na may bahagyang malawak, pare-parehong pamamahagi sa lahat ng session. Ang pagsa-sample ng session ay maaaring hindi gaanong tumpak para sa mga problemang 'karayom sa gitna ng dayami,' tulad ng pagsusuri ng isang keyword at pagsusuri na long tail. Hindi rin ito gaanong tumpak sa mga sitwasyong kinabibilangan ng limitadong pagfi-filter ng dimensyon tulad ng mga na-filter nang mabuti na view o pagsusuri ng conversion kung saan ang mga conversion ay bumubuo ng maliit na bahagi ng mga session. Para sa mga uri ng pagsusuring iyon, sumangguni sa mga hindi na-sample na ulat na available sa mga Google Analytics Premium account.

Pagsasama-sama ng value ng dimensyon

Paano gumagana ang mga standard na ulat

Ang mga paunang pinagsama-samang talahanayan bawat view ay pinoproseso sa pang-araw-araw na batayan. Nag-uulat ang mga talahanayang ito ng data tungkol sa lahat ng session, bagama't may limitasyon sa bilang ng mga row/natatanging value sa mga paunang pinagsama-samang talahanayan3. Pinagsasama-sama ng GA ang data kapag mayroong higit sa 75,000 row ng data sa isang talahanayan sa isang araw. Sa madaling salita, kapag mayroong higit sa 75,000 value para sa isang partikular na talahanayan, kinukuha ng GA ang mga nangungunang N4 na value at gumagawa ng isang pinagsama-samang entry para sa natitirang mga value na may label na (iba pa).

Mga implikasyon para sa mga kahilingan sa maraming araw

Ang mga nangungunang N entry ay natutukoy sa bawat araw na batayan. Halimbawa, kung pipiliin mo ang anumang isa lang na araw sa ulat ng mga page, makikita mo ang hindi hihigit sa 75,000 row, lahat ng iba pang page ay pinagsama-sama sa kategoryang (iba pa). Samakatuwid, ang isang page na nakalagay sa kategoryang "(iba pa)" sa isang araw ay maaaring hindi mailagay sa kategoryang "(iba pa)" sa isa pang araw. Kaya, kung nagpapatakbo ka ng isang ulat para sa maraming araw na hanay ng petsa, maaaring magkaroon ng mga hindi pagkakatugma, dahil ang ilang mga page (o iba pang value ng dimensyon) sa long tail ay maaaring kasama sa (iba pa) na bucket o sa sarili nitong row sa lahat ng araw.

Bukod pa rito, para sa anumang hanay ng petsa, nagbabalik ang Google Analytics ng maximum na 1M row para sa ulat. Ang mga row na lampas sa 1M ay pagsasama-samahin sa isang (iba pa) na entry.

Dahil ang mga value ng dimensyon (hal., mga natatanging URL at keyword ng campaign) ay madalas na nauulit sa lahat ng napiling araw, karaniwang nakakaapekto lang ang hangganang ito sa mga site at app na may maraming natatanging page/screen at/o keyword.

Matuto nang higit pa tungkol sa kung paano pinagsasama-sama ang data sa ilalim ng (Iba pa)

Paano gumagana ang mga ulat ng ad-hoc

Sa mga pagkakataon kung saan ang query ng user ay hindi kayang matugunan ng umiiral nang pinagsama-sama (hal., mga paunang pinagsama-samang talahanayan), babalik ang GA sa raw na data ng session upang kalkulahin ang hiniling na impormasyon. Sa ganitong pagkakataon, nagbabalik ang GA ng maximum na 1M natatanging value ng dimensyon na kasama sa hanay ng sample para sa query.

Iba pang mga ulat

Pagsa-sample at mga ulat sa Multi-Channel Funnel

Ang mga ulat sa Multi-Channel Funnel ay batay sa 1M conversion. Kung ang bilang ng mga conversion ay lampas sa 1M para sa aktibong hanay ng petsa, magsa-sample ang GA ng hanggang sa 1M conversion sa antas ng view. Tandaan na nangyayari ang pagsa-sample sa antas ng view, hindi sa antas ng property, para sa mga ulat sa Multi-Channel Funnel.

Ang maximum na bilang ng mga natatanging path ng conversion ay 200K bawat araw. Ang lahat ng iba pang mga path ng conversion ay pinagsasama-sama sa ilalim ng (iba pa).

Pagsa-sample at mga ulat sa paglalarawan ng daloy

Ang mga ulat sa paglalarawan ng daloy (kinabibilangan ng Daloy ng Mga Bisita at Daloy ng Layunin) ay binubuo mula sa isang subset ng 100K session para sa aktibong hanay ng petsa. Katulad ng karaniwang pagsa-sample ng session ng ulat, ang 100K session ay na-sample sa antas ng property. Samakatuwid, maaaring higit pang bawasan ng paglalapat ng mga filter ng view o Segment ang laki ng hanay ng sample.

Dahil dito, ang mga ulat sa paglalarawan ng daloy, kasama na ang rate ng pagpasok, exit rate at rate ng conversion ay maaaring maiba sa mga resulta sa mga karaniwang ulat sa content at conversion, na batay sa ibang hanay ng sample.

Pagsa-sample ng pagkolekta ng data

Kung ang iyong site o app ay may milyun-milyong pageview bawat buwan, maaari mong pag-isipan ang pagko-configure ng iyong tracking code upang i-sample ang iyong data. Para sa impormasyon kung paano ito gawin, sundin ang mga tagubilin sa Gabay sa Developer para sa iyong partikular na environment:

Sa pamamagitan ng pagsa-sample ng mga hit para sa iyong site o app, makakakuha ka ng mga mapagkakatiwalaang resulta ng pag-uulat habang nananatiling nasa limitasyon ng hit para sa iyong account. Ang limitasyon sa bilang ng mga hit para sa isang karaniwang GA account ay 10M hit/buwan. Para sa mga Premium account, ang limitasyon ng hit ay 1B+ hit/buwan. Kapag ipinatupad ang pagsa-sample ng pagkolekta ng data, idi-discard ang mga hit sa panig ng kliyente at hindi kailan man kinokolekta o pinoproseso ng Google Analytics. Samakatuwid, ang mga na-discard na hit ay hindi na maaaring ma-recover sa pamamagitan ng mga Premium na hindi na-sample na ulat. Gayundin, hindi tulad ng pagsa-sample ng session, hindi iintindihin mula sa data ng Google Analytics ang mga resulta ng ulat batay sa rate ng sample ng pagkolekta ng data. Dahil doon, ang dagdag na pakinabang ng pagsa-sample ng koleksyon ng data ay magiging mas mabilis ang pagtugon ng ulat dahil mas kaunti ang data sa account.

Nangyayari nang tuluy-tuloy ang pagsa-sample ng pagkolekta ng data sa lahat ng user. Samakatuwid, kapag napili ang isang user para sa pagkolekta ng data, lahat ng session (kabilang ang mga session sa hinaharap) para sa user ay magpapadala ng data sa GA. Para sa mga mobile application, nangangahulugan ito na ang mga pagda-download ng application na napili para sa pagkolekta ng data ay magpapadala ng data sa GA, habang ang ibang pagkakataon ng application ay hindi magpapadala ng anumang hit.

Tandaan na kahit hindi ma-sample ang data para sa iyong site kapag kinuha ito, ang ilang partikular na uri ng mga ulat ay sasailalim sa iba pang mga uri ng pagsa-sample, kasama na ang pagsa-sample ng session at pagsasama-sama ng value ng dimensyon, batay sa katangian ng query. Tingnan ang Paano gumagana ang mga ulat ng ad-hoc para sa pagsa-sample ng session.

1 Tingnan angpagsasaayos sa laki ng sample. Ang laki ng sample ay maaaring ayusin mula 1K hanggang 500K session.

2 Tingnan angpagsasaayos sa laki ng sample.

3 Maaaring tumugma ang mga talahanayan sa isang ulat o maraming ulat. Maaaring maglaman ang mga talahanayan ng isang dimensyon (hal., Keyword) o maraming dimensyon (hal., Ad Group at Campaign). Sa pinakadetalyadong antas, maglalaman ang mga ulat ng hanggang 75K row ng data. Ang mas matataas na antas sa pagkakasunud-sunod ng talahanayan, gaya ng ad group, ay maaaring maglaman ng mas kaunti sa 75K row.

4 Ayon sa natukoy ng nauugnay na sukatan para sa ulat/talahanayan (hal. # (na) session, # (na) kaganapan, # (na) page view, # (na) transaksyon).