表名称和位置
Search Console 批量数据导出功能会在您的 BigQuery 项目中创建以下表:
数据集名称:searchconsole
(请注意,此名称可自定义,因此您或他人可能在设置过程中选择了其他名称)
表的列表:
- searchdata_site_impression:包含按资源汇总的资源效果数据。
- searchdata_url_impression:包含按网址汇总的资源效果数据。
- ExportLog:包含与每次成功将数据导出到之前的某个数据表有关的信息。请注意,Search Console 通常会将数据单独导出到这些表。此处不会记录失败的导出操作。
批量数据导出:表和提示 - Google Search Console 培训
表保存时间安排
Search Console 每天会批量导出一次数据,但不一定会在同一时间将数据导出到各个表。
如果 Search Console 遇到暂时性错误(例如连接问题),会立即开始不断重试,而不会触发任何通知。
如果写入尝试期间出现非暂时性错误(例如权限错误),那么在次日按计划导出之前,Search Console 不会再次尝试导出表。Search Console 会持续重新尝试导出当天的数据大约一周,之后就会停止尝试保存当天的数据。例如,如果 Search Console 尝试保存第 1 天的数据,但遇到了身份验证错误,且该错误直到第 9 天才得到修正,那么系统不会导出第 1 天和第 2 天的数据,但会在第 9 天重新获得访问权限后添加剩余天数的数据。
如果由于某些处理错误已得到修正,Search Console 必须修改之前保存的数据,那么所有更改都会是原子更改,也就是说,Search Console 会在单次提交中更新当天的所有数据。修复旧数据不会经常发生,也不会触发电子邮件通知,但会记录在导出日志中。
Search Console 会逐渐累积效果数据,导致表行中包含重复的键。这些数据在导出到表之前不会压缩。因此,您几乎在所有情况下都应该汇总所有指标。
数据保留时间
默认情况下,表和分区会永久保留,具体取决于 Google Cloud 项目或组织设置的全局默认设置。
如果您想避免无限期累积数据,我们建议您在可接受的时间段后设置一个分区失效时间。这个时间段可以是一个月、六个月、十二个月,您也可以根据需求和累积的数据量来合理地设定。您也许不想为整个表设置失效日期,因为这样会删除您的所有数据。
表架构
以下是 Search Console 导出的表的架构。所有表的前缀均为 <您的_项目_ID>.searchconsole
。
表 searchdata_site_impression
此表包含按资源汇总的数据。该表包含以下字段:
- data_date:相应行数据的生成日期(太平洋时间)。
- site_url:资源的网址。对于网域级资源,此网址为 sc-domain:property-name。对于网址前缀资源,此网址为资源定义的完整网址。示例:sc-domain:developers.google.com、https://developers.google.com/webmaster-tools/
- query:用户查询。如果 is_anonymized_query 为 true,则此字段是长度为零的字符串。
- is_anonymized_query:罕见的查询(称为匿名化查询)标有此布尔值。如果此值为 true,则查询字段将为 null,以保护进行查询的用户的隐私。
- Country:发起查询时所在的国家/地区,采用 ISO-3166-1-Alpha-3 格式。
- search_type - 以下某个字符串值:
- web:Google 搜索中的默认(“全部”)标签页。
- image:Google 搜索中的“图片”标签页。
- video:Google 搜索中的“视频”标签页。
- news:Google 搜索中的“新闻”标签页
- discover:Google 探索结果
- googleNews:news.google.com,以及 Android 和 iOS 版 Google 新闻应用
- device:发起查询的设备。
- impressions:相应行的展示次数。
- clicks:相应行的点击次数。
- sum_top_position:对于该表格行中的每次展示,网站在搜索结果中的最高排名的总和,其中 0 是搜索结果中的最高排名。要计算平均排名(从 1 开始),请计算
SUM(sum_top_position)/SUM(impressions) + 1
表 searchdata_url_impression
此表包含按网址汇总的数据。该表包含以下字段:
- data_date:同上。
- site_url:同上。
- url:用户点击搜索结果或 Google 探索故事后最终到达的完全限定网址。
- query:同上。
- s_anonymized_query:同上
- is_anonymized_discover:数据行是否低于 Google 探索匿名化阈值。如果低于该阈值,为保护用户隐私,一些其他字段(如 url 和 country)将会缺失。
- country:同上。
- search_type:同上。
- device:同上。
- is_[search_appearance_type]:有多个布尔型字段可用于指示搜索结果呈现类型,例如 is_amp_top_stories、is_job_listing 和 is_job_details。如果相关行出现在特定富媒体搜索结果中,则相应字段为 true。
- impressions:同上。
- clicks:同上。
- sum_position:从零开始的数字,表示相应网址在用户查询的搜索结果中的最高排名。(零是搜索结果中的最高排名)。要计算平均排名(从 1 开始),请计算
SUM(sum_position)/SUM(impressions) + 1
。
表 ExportLog
此表会记录当天保存了哪些数据,不会记录失败的导出操作。不妨详细了解跟踪失败情况。该表包含以下字段:
- agenda:保存了哪类数据。目前唯一的值是 SEARCHDATA。
- namespace:保存到了哪个表。Search Console 通常会分别针对每个表导出数据,因此每天一般会有两个导出行。
- data_date:点击或展示的日期,采用太平洋时间。这是表使用的分区日期。
- epoch_version:一个整数,其中 0 表示此日期首次将数据保存到此表。在极少数情况下,Search Console 需要返回并调整之前的数据,这可能是因为数据出现异常。在这种情况下,每当该表和日期的数据更新时,此值都会加 1。
- publish_time:导出完成时的太平洋时间。