資料取樣簡介

取樣是一種資料分析做法,藉由分析整體資料內的部分資料,從龐大的資料集中發掘出實用資訊。舉例來說,假設有許多樹相當均勻地分佈在一片 100 英畝的土地上。這時只要計算 1 英畝土地上的樹木數量再乘以 100,或是算出半英畝土地上的樹木數量並乘以 200,就能精確推算出這整片土地上有幾棵樹。

本文將說明 Analytics (分析) 會在哪些情況下對工作階段進行資料取樣,藉此快速提供您精確的報表。

 

本文內容:

資料取樣門檻

預設報表不會進行資料取樣。

至於臨時資料查詢,只要工作階段量超過下列一般門檻就會進行取樣:

  • Analytics (分析) 標準版:在指定日期範圍中,資源層級的工作階段量達 50 萬個
  • Analytics (分析) 360:在指定日期範圍中,資料檢視層級的工作階段量達 1 億個

    視查詢的設定方式而定,Analytics (分析) 360 的數量門檻會不太一樣,詳情請洽詢 Analytics (分析) 360 支援小組。

資料取樣時機

以下幾個小節將說明各種 Analytics (分析) 報表會在哪些情況下對工作階段進行取樣。

預設報表

您可在 Analytics (分析) 左側面板的 [目標對象]、[客戶開發]、[行為] 和 [轉換] 底下,找到一組預設報表。

Analytics (分析) 除了為每個帳戶中的各項資源分別儲存一組未經篩選的完整資料之外,還會使用這類完整資料,為資源中的每個報表資料檢視建立包含匯總維度和指標的資料表。當您執行預設報表時,Analytics (分析) 會查詢匯總資料表,快速提供未取樣的結果。

Analytics (分析) 會定期新增報表,有時還會調整指標的計算方式。要是報表日期範圍包含新增報表前或變更指標計算方式前的期間,Analytics (分析) 可以送出臨時查詢要求,而系統也可能會對資料進行取樣。

如果內含「使用者」和「活躍使用者」指標的報表涵蓋 2016 年 9 月之前的資料,系統就會對資料取樣。瞭解詳情

系統不會對 Analytics (分析) 標準版和 Analytics (分析) 360 的預設報表進行資料取樣,但若您使用 UTM 覆寫功能,系統可能會對部分 Google Ads 報表進行資料取樣。

臨時報表

如果您以套用區隔、篩選器或次要維度等方式修改預設報表,或是使用預設報表沒有的維度和指標組合來建立自訂報表,系統就會對 Analytics (分析) 資料進行「臨時」查詢。

這時 Analytics (分析) 會先檢視經過匯總處理的資料表,看看其中否包含臨時查詢要求的所有資料。如果缺少任何資料,Analytics (分析) 會查詢未經篩選的完整資料集來完成查詢要求。

在這種情況下,如果您指定日期範圍中的工作階段數量超出您資源類型的門檻,臨時查詢就必須進行資料取樣。

取樣演算法所用的是完整資料的樣本,意即在指定日期範圍內,按一定比例向資源每一天的工作階段取樣。假設指定日期範圍是 5 天,取樣率則是 25%,那麼系統會從每一天的工作階段中各取 25% 的樣本:

  週一 週二 週ㄙㄢ 週四 週五
工作階段總數 200,000 100,000 200,000 300,000 200,000
25% 取樣率 50,000 25,000 50,000 75,000 50,000

 

視資料檢視在指定日期範圍內獲得的工作階段數量而定,每個查詢的取樣率會不太一樣。

系統進行取樣時,報表頂端會顯示「這份報表是以 N% 的工作階段來計算」這個訊息。

這項訊息右側有兩個選項可用來更改取樣量,請視需求選用其中一項:

  • 精準度更高:盡量提高取樣量,呈現最接近整體資料集實際樣貌的精確結果
  • 回應速度更快:降低取樣量並儘快呈現結果
Sampling controls: Greater precision or Faster response
取樣率調整功能

其他報表

下列報表的取樣方式跟預設報表和臨時查詢不同。

多管道程序/歸因報表

和預設報表一樣,除非您修改報表 (例如變更回溯期、更改納入的轉換類型,或者是新增區隔或次要維度等等),否則系統不會進行取樣。此外,無論您以何種方式修改報表,系統最多都只能傳回 100 萬個轉換做為樣本。

流程示意圖報表

系統會使用指定日期範圍內最多 10 萬個工作階段來建立「流程示意圖」報表 (包括「使用者流程」、「行為流程」、「事件流程」和「目標流程」)。

「流程示意圖」報表 (包括其中的入站率、離開率和轉換率等數據) 最終呈現的結果可能與預設的行為報表和轉換報表有些出入,因為後者使用的樣本組合不同。

篩選器和區隔

Analytics (分析) 標準版和 Analytics (分析) 360 在套用資料檢視篩選器後,才會對資料檢視層級的工作階段數據進行取樣。舉例來說,如果資料檢視篩選器納入或排除了工作階段,取樣範圍僅限篩選出的工作階段。

另外,Analytics (分析) 標準版和 Analytics (分析) 360 都會先套用報表篩選器並完成取樣,接著再套用區隔,因此區隔所納入的工作階段數目可能比整組樣本少。

調整樣本數

您可以使用控制功能來調高取樣率並提升報表資料的精確度,也可以降低取樣率以縮短查詢的回應時間。

此外,您可以藉幾種方式來避免系統對資料進行取樣,其中之一是縮短報表日期範圍,確保工作階段數目不超出資料取樣門檻 (在這麼做之前,請先確定您的資料量足夠)。

若您使用 Google Analytics (分析) 360,還可以透過下列另外兩種方式取得未取樣報表:

這對您有幫助嗎?
我們應如何改進呢?