Så lagras och visas data

Om datasampling

Nästa: [GA4] Automatiska utökade dataset för Google Analytics 360

Vad är datasampling?

Datasampling är en dataanalysmetod där man analyserar en delmängd av data för att utvinna meningsfull information om ett större dataset. Med denna metod kan du hämta data snabbare, med minimal påverkan på datakvaliteten.

Anta till exempel att du vill beräkna antalet träd på en 100 hektar stor yta där träden är relativt jämnt fördelade över ytan. Då kan du räkna antalet träd på en hektar och multiplicera resultatet med 100, eller räkna antalet träd på en halv hektar och multiplicera med 200, och på så sätt få en rättvisande uppskattning av hela ytan.

Därför visas datasampling

I Google Analytics kan datasampling ske när antalet händelser som används för att skapa en rapport, utforskning eller begäran överskrider kvotgränsen för din egendom. I sådana fall använder Analytics en del av informationen och skalar sedan upp den för att ge rättvisande resultat som är representativa för all din data.

När sampling används för resultat visas detta i datakvalitetsikonen, med procentandelen data som användes för att skapa resultaten. Ju större samplingsstorleken är, desto exaktare blir resultaten.

Vilka begränsningar gäller?

Kvotgränsen för sökfrågor på händelsenivå är tio miljoner händelser för standardegendomar i Google Analytics och en miljard händelser för Google Analytics 360-egendomar.

För Google Analytics 360-egendomar är standardinställningen 100 miljoner händelser per sökfråga, vilket ger dig snabbare och rättvisande resultat. När en ökad noggrannhet krävs kan du använda datakvalitetsikonen för att komma åt den högre samplingsgränsen i Utforska genom att välja Mer detaljerade resultat.

Obs! Om du filtrerar stora dataset efter land kan det leda till datasampling i standardrapporterna i Google Analytics och Utforska, även när du använder utökade databegäranden. Detta beror på att filtrering aktiverar andra metoder för databehandling som är mer benägna att resultera i sampling när de hanterar datauppsättningar som överskrider 100 miljoner händelser. Om du vill minimera sampling kan du överväga att minska datumintervallet för dina rapporter eller använda alternativa analysmetoder om det behövs.

Vad gäller för data utan urval?

För rapporter utan urval använder Google Analytics HyperLogLog++ (HLL++) för att beräkna exakta unika antal för de vanligaste mätvärdena, till exempel användare och antal sessioner. HLL++ garanterar bättre prestanda, mer exakta uppskattningar och lägre felgränser. Du kan även använda HLL++ med din Google Analytics-data i BigQuery. Läs mer om approximering av unika antal i Google Analytics.

Obs! I de flesta fall är avvikelsen mindre än 1 %, men den kan vara högre, särskilt när du kombinerar fler än ett HLL++-mätvärde. Google Analytics använder HLL++-skiss 14. Läs mer om HLL++-skisser.

Var det här till hjälp?

Hur kan vi förbättra den?