資料表名稱和位置
Search Console 大量資料匯出作業會在 BigQuery 專案中建立下列資料表:
資料集名稱:searchconsole
(請注意,這個名稱可以自訂,所以你或其他人在設定時有可能選擇了其他名稱)
資料表清單:
- searchdata_site_impression:收錄資源的成效資料,按資源匯總。
- searchdata_url_impression:收錄資源的成效資料,按網址匯總。
- ExportLog:每次成功匯出至先前資料表的作業資訊,皆收錄於此。請注意,Search Console 通常會分開匯出這些資料表,而未成功匯出的作業則不會記錄在這裡。
大量資料匯出:資料表和提示 - Google Search Console 訓練課程
資料表儲存時程
Search Console 每天都會匯出大量資料一次,但不一定會同時匯出每個資料表的數據。
如果 Search Console 發生暫時性錯誤 (例如連線問題),系統會立即重試,而不會觸發任何通知。
如果在嘗試寫入時發生非暫時性錯誤 (例如權限錯誤),Search Console 要等到隔天排定的匯出作業時,才會再次嘗試匯出資料表。Search Console 會持續重試匯出當天的資料大約一週,之後就會停止嘗試儲存那天的資料。舉例來說,如果 Search Console 嘗試儲存第 1 天的資料,但發生驗證錯誤,而此錯誤到第 9 天時得以修正,那麼系統就不會匯出第 1、2 天的資料,而是會在第 9 天恢復存取權時,匯出其餘幾天的資料。
如果 Search Console 因為部分處理錯誤已修正,必須修改先前儲存的資料,所有變更會一次完成,也就是說,Search Console 會在一次修訂中更新當天所有資料。系統不會經常修正舊資料,修正時不會觸發電子郵件通知,只會註記在匯出記錄中。
Search Console 會逐漸累積成效資料,使資料表的資料列含有重複的索引鍵。在匯出到資料表前,系統不會壓縮這些資料。因此,建議你盡可能一律將所有指標匯總在一起。
資料保留時間
系統預設會永久保留資料表與分區,實際情況仍取決於你的 Google Cloud 專案或機構設定的全域預設值。
如要避免無限期累積資料,建議你在可接受的期間段之後,設定「分區」失效期限,例如一個月、六個月、十二個月,或合理依據需求和累積資料量的時間來設定。若是設定整份資料表的到期日,則會刪除所有資料,這可能並非你想要的,請再三確認。
資料表結構定義
以下是 Search Console 匯出資料表的結構定義。所有資料表的前置字元都是 <your_project_ID>.searchconsole
。
資料表 searchdata_site_impression
這個資料表所含資料按資源匯總。資料表中包含下列欄位:
- data_date:這個資料列中的資料產生日期 (太平洋時間)。
- site_url:資源的網址。如果是網域層級資源,這個值會是 sc-domain:property-name。如果是網址前置字元資源,則會是資源定義的完整網址。範例:sc-domain:developers.google.com,https://developers.google.com/webmaster-tools/
- query:使用者的查詢。如果 is_anonymized_query 為「是」,則這個值是長度為零的字串。
- is_anonymized_query:罕見查詢 (稱為匿名查詢) 會標上此布林值。如果該值為「真」(以保障查詢者隱私權),查詢欄位將為空值。
- Country:查詢時所在的國家/地區,採 ISO-3166-1-Alpha-3 格式。
- search_type - 下列其中一個字串值:
- web:Google 搜尋中的預設 (「全部」) 分頁。
- image:Google 搜尋中的「圖片」分頁。
- video:Google 搜尋中的「影片」分頁。
- news:Google 搜尋中的「新聞」分頁。
- discover:Google 探索結果。
- googleNews:news.google.com 和 Android 版/iOS 版 Google 新聞應用程式
- device:查詢時使用的裝置。
- impressions:這個資料列的曝光次數。
- clicks:這個資料列的點擊次數。
- sum_top_position:該資料列顯示,每次曝光時網站於搜尋結果最高排名的總和 (其中「零」為搜尋結果的最高排名)。如要計算平均排名 (以 1 為基準),請計算
SUM(sum_top_position)/SUM(impressions) + 1
。
資料表 searchdata_url_impression
這個資料表所含資料會按網址匯總。資料表中包含下列欄位:
- data_date:同上。
- site_url:同上。
- url:使用者點選搜尋結果或 Google 探索故事後,最後前往的完整網址。
- query:同上。
- is_anonymized_query:同上。
- is_anonymized_discover:資料列是否低於 Google 探索去識別化門檻。如果未達門檻,某些其他欄位 (例如 URL 和 Country) 不會顯示資料,以保護使用者隱私權。
- country:同上。
- search_type:同上。
- device:同上。
- is_[search_lookance_type]:有數種布林值欄位可用來表示搜尋外觀類型,例如 is_amp_top_stories、is_job_listing 和 is_job_details。如果某資料列出現在特定複合式搜尋結果中,則此欄位值為「是」。
- impressions:同上。
- clicks:同上。
- sum_position:以零為基準的數值,表示這個網址在針對這個查詢搜尋結果中的最高排名 (零表示搜尋結果中的最高排名)。如要計算平均排名 (以 1 為基準),請計算
SUM(sum_position)/SUM(impressions) + 1
。
資料表 ExportLog
這個資料表記錄的是系統儲存了該日的哪些資料失敗的匯出作業不會記錄在此。進一步瞭解如何追蹤失敗的作業。資料表中包含下列欄位:
- agenda:儲存的資料類型。目前唯一的值是 SEARCHDATA。
- namespace:儲存在哪個資料表。Search Console 通常會分別為每個資料表匯出資料,因此每天通常會有兩個匯出資料列。
- data_date:點擊或曝光日期 (太平洋時間)。這是資料表使用的分區日期。
- epoch_version:一個整數,其中 0 是指系統第一次針對這個日期儲存資料到這個資料表裡。在極少數情況下,Search Console 必須回頭調整先前的資料 (可能因為資料異常),每次該資料表和日期的資料更新,這個值就會增加 1。
- publish_time:匯出作業完成時間 (太平洋時間)。