Google 新闻特有的抓取错误

请注意:我们的新闻索引是通过计算机算法编译的。我们会尽可能地收录您的内容,但无法保证会收录您的所有报道。敬请谅解。

要查看 Google 新闻特有的错误报告,新闻发布商需要让 Google 新闻收录他们的网站、创建 Search Console 帐户并将网站添加到该帐户中。完成这些步骤之后,请在 Search Console 中按照以下步骤操作:

  • 首页上,点击网站的网址。
  • 信息中心内,依次点击抓取 > 抓取错误
  • 点击“新闻”标签,查看与新闻内容相关的抓取错误。
  • 抓取错误会整理成几类,比如“报道提取”或“标题错误”。点击其中一个类别即可查看受影响的网址列表以及这些网址生成的抓取错误。

新闻特定的错误包括:

报道相对过短

说明

相较于网页上没有链接的其他文本段,我们从 HTML 网页中提取的报道正文过短。这适用于包含新闻摘要或多媒体内容的大多数页面,而非完整的新闻报道。我们生成此错误是为了避免收录可能不正确的文本段。

建议

此问题通常由以下几种原因导致:

  • 相关报道的摘要过多 - 为便于我们的提取器工作,请考虑将这些摘要设置为可点击。
  • 将该报道发送给朋友”等功能的说明过长 - 您可以考虑设置“display:none”或“visibility:hidden”样式,以便隐藏文本,也可以使用 JavasScript 动态编写 HTML 代码段。
  • 用户评论 - 您可以考虑将评论放入 iframe 中,使用 AJAX 动态抓取评论,或将评论移到相邻页面中。
报道支离破碎

说明

我们从 HTML 网页中提取的报道正文包含不成段落的孤立句子。我们生成此错误是为了避免收录可能不正确的文本段。

建议

  • 确保文章段落格式正确,每个段落包含不止一个句子。
  • 确保句中的标点正确。
  • 请勿在段落中频繁使用 <br> 和 <p> 标记,并且尽量避免在总体上拆分报道的正文。
  • 考虑删除报道页面上的一些非报道文字。
报道过长

说明

我们从 HTML 网页中提取的报道正文对于新闻报道来说似乎过于冗长。我们生成该错误是为了避免收录可能不正确的文本片段。常见原因包括:新闻报道下方带有用户发表的评论,或HTML版面中包含除新闻报道之外的其他资料。

建议

考虑删除报道页面上的一些非报道文字。如果报道网页中包含用户评论,请考虑采用以下某种方法:

  • 将评论放入 iframe 中。
  • 使用 AJAX 动态抓取评论。
  • 将部分评论移动至相邻页面中。
报道过短

说明

从 HTML 页面摘录的报道正文包含的字数太少,不能作为一篇新闻报道。这适用于包含新闻摘要或多媒体内容的大多数页面,而非完整的新闻报道。我们生成此错误是为了避免收录可能不正确的文本段。

建议

  • 尝试对您的报道进行格式调整,将其拆分为多个由几句话组成的文本段落。如果报道内容由于包含的字数过少而不能用作新闻报道,我们就无法收录它。
  • 确保报道的字数超过 80。
找不到日期

说明

我们无法确定报道的发布日期。

建议

请按以下日期格式建议操作:

  • 在每篇报道的标题和正文之间单独添加一行 HTML 标记,并指明日期和时间,其中日期应为相应报道首次发布的日期。
  • 删除报道页面 HTML 中的其他任何日期,以免抓取工具将这些日期误认为正确的发布时间。
  • 如果您要使用日期元标记,请先与我们联系。日期元标记应采用以下格式:<meta name="DC.date.issued" content="YYYY-MM-DD">,其中日期采用 W3C 格式,即使用“完整日期 ”(YYYY-MM-DD) 格式或附带时区后缀的“完整日期加时、分、秒 ”(YYYY-MM-DDThh:mm:ssTZD) 格式。
  • 创建新闻站点地图。<publication_date> 标记可确保您能够为报道选择正确的日期。
日期过早

说明

我们所确定的此报道的日期(无论是从站点地图的 <publication_date> 标记中获得,还是从 HTML 页面本身的日期中获得)太旧。

建议

  • 确保您报道的发布日期不早于 2 天以前。目前我们只收集发布时间不超过 2 天的报道。
  • 按上文中的日期格式建议操作。
报道无内容

说明

我们从 HTML 网页中提取的报道正文是空的。

建议

  • 确保报道网页的源代码中提供了每篇报道的全文(例如,没有文本内嵌在 JavaScript 文件或 iframe 中)。
  • 请确保您没有在报道的源代码中使用例如“display:none”或“visibility:hidden”的样式。
  • 请确保您报道的链接直接指向相应报道的页面,而不是指向使用 Javascript 重定向的中间页面。
提取失败

说明

我们无法从网页中提取报道。如果我们无法识别报道的有效标题、正文和时间戳,提取就会失败。我们会列出出现此错误的网址,向您解释某些报道可能不会显示在 Google 新闻中的原因。

建议

  • 确保标题、正文和时间戳均易于抓取(例如,采用文字形式而不是图片形式提供),但目前该错误主要用于参考。我们正积极努力地改进提取方法,以降低此错误的出现频率。
  • 提交新闻站点地图
找不到句子

说明

我们从 HTML 网页提取的报道正文未包含由连续的字词组成且用标点连接的句子。我们生成此错误是为了避免收录可能不正确的文本段。

建议

  • 如果报道内容不包含由标点连接连续字词,则我们就不能将其收录到 Google 新闻中。请确保报道的文本是由句子组成的,并且您未在段落内频繁使用 <br> 或 <p> 标签。
  • 请确保报道页面的源代码中提供了每篇报道的全文(例如,未嵌入 JavaScript 文件中)。
  • 请确保您报道的链接直接指向相应报道的页面,而不是指向使用 Javascript 重定向的中间页面。
离站重定向

说明

栏目或报道网页会重定向到其他网域上的网址。

建议

  • 所有版块页面和报道都必须位于 Google 新闻所收录网站的网域内。
  • 如果您没有使用离站重定向功能,请确保您的网站未遭到第三方修改。详细了解被黑客入侵的网站。
页面过大

说明

栏目或报道网页的长度超出了允许的上限。

建议

HTML 源代码页面的大小不得超过 256KB。

不允许使用的标题

说明

从 HTML 页面摘录的标题表明该页面上的内容不是新闻报道。

建议

您通常可以通过以下方法解决该问题:将 HTML 页面上的 <title> 标记设置为报道的标题,并在 HTML 页面上的显著位置(例如,在 <h1> 标记中)反复显示该标题。详细了解了解标题。

找不到标题

说明

我们无法从 HTML 页面摘录报道的标题。

建议

  • 请按照我们的标题格式建议操作。
  • 要确保您的报道能够正确地显示在移动设备上,请勿在标题的定位文字中包含前导号码(有时与访问密钥对应)。
解压缩失败

说明

Googlebot-News 检测到页面经过压缩,但无法将其解压缩。这可能是因为网络状况不佳或者网络服务器的编程或配置不当而引起。

建议

检查网络或网络服务器。

内容类型不受支持

说明

页面中包含 Google 新闻不支持的 HTTP 内容类型。

建议

报道所包含的内容类型必须为 text/html、text/plain 或 application/xhtml+xml。

该内容对您有帮助吗?

您有什么改进建议?

需要更多帮助?

请尝试以下步骤:

true
初次使用 Search Console?

以前从未使用过 Search Console?无论您是彻头彻尾的新手,还是搜索引擎优化 (SEO) 专家,抑或是网站开发者,都可从这里开始使用它。

搜索
清除搜索内容
关闭搜索框
主菜单
7467948313327870942
true
搜索支持中心
true
true
true
true
true
83844
false
false