什麼是資料取樣
資料取樣是一種資料分析做法,藉由分析龐大資料集的一小部分資料,發掘出實用資訊。這種做法可加快資料擷取速度,且幾乎可維持同樣的資料品質。
舉例來說,假設有一塊 100 甲的林地,土地上的樹木均勻分布,這時只要計算 1 甲地上的樹木數量再乘以 100,或是算出半甲地上的樹木數量再乘以 200,就能精確推算出整塊地上有幾棵樹。
為什麼會顯示已取樣的資料結果
在 Google Analytics 中,如果要求的事件數量或用來建立報表/探索的事件數量超出資源配額上限,系統可能會進行資料取樣。在這種情況下,Analytics 會先採用一部分資料,然後再擴大計算,呈現大方向上足以代表整體資料的結果。
資料品質圖示會顯示結果是否經過取樣,以及計算時採用的資料百分比。資料樣本越大,結果越準確。
查詢數量上限
以標準 Google Analytics 資源來說,事件層級查詢的配額上限為 1,000 萬筆事件;Google Analytics 360 資源的配額上限則多達 10 億筆事件。
Google Analytics 360 資源的初始預設值為每次查詢 1 億筆事件,更快產生大方向上足以代表整體資料的結果。如想進一步提高準確度,請點選資料品質圖示,在「探索」中選取「更詳細的結果」,即可提高取樣上限。
未取樣資料
針對未取樣報表,Google Analytics 會使用 HyperLogLog++ (HLL++) 估算最常用指標 (例如活躍使用者和工作階段) 的確切個別計數。使用 HLL++ 可確保更佳的效能、更高的預估精確度和更低的誤差範圍。您也可以在 BigQuery 中搭配使用 HLL++ 和 Google Analytics 資料。進一步瞭解 Google Analytics 中的不重複計數估計值。