Google 通过计算机算法来抓取新闻网站。为帮助系统确定哪些网页才是报道,请确保您的网站符合以下技术准则。
网站结构要求
Google 新闻建议发布商遵守以下网站结构准则,以便 Google 新闻能正确抓取新内容。
固定版块页面
如果您的主要新闻版块中的网址经常变化,Google 新闻可能会无法识别您的网站。如果网址不固定,我们便无法抓取新内容,因为我们无法检测到要抓取的最新网址。
为使自动抓取工具 Googlebot-News 更加有效地抓取内容,建议您为主要新闻版块采用固定网址。Googlebot-News 最能抓取 HTML 链接,但无法抓取图片链接或嵌在 JavaScript 中的链接。请确保您版块页面上的报道只包含 HTML 链接。
此外,请确保指向版块页面中报道的定位文字与报道标题和页面标题一致。如果这些技术要求对您而言比较棘手,您可以试试只针对站点地图进行抓取。如果您想尝试只通过站点地图抓取网站,请与我们的团队联系。
可访问的内容
我们的抓取工具需要访问您的网站,以便将您的内容收录到 Google 新闻中。请确保 robots.txt 文件不会阻止抓取工具访问托管您报道的目录,并且元标记或标头规范也不会阻止抓取工具访问报道链接。Google 新闻与 Google 网页搜索使用同一漫游器(即 Googlebot)来抓取内容。
-
如果您认为自己网站的 robots.txt 文件、元标记或 HTML 标头规范可能会阻止我们的抓取工具访问您的内容,请阅读管理 Google 对您网站上内容的访问权限。
对语言和编码的要求
请务必了解内容语言和网站编码方面的准则。
语言
Google 新闻不会显示在单篇报道中使用多种语言的网站。我们的系统无法分析包含多种语言的内容,因此难以确保我们能够以正确的语言显示内容。
如果您的网站包含采用特定语言的版块(例如 example.com/french 和 example.com/english),请分别为每种语言创建不同的出版物。这样可确保用户能够看到以自己所选语言显示的内容。了解如何设置出版物。
对您的网站进行编码
为获得最佳效果,请以 UTF-8 的格式对您的网站进行编码。如需详细了解如何编码,请访问 www.w3.org。
对单个报道页面的要求
为确保我们只抓取您的新闻报道,Google 新闻规定各个报道页面必须满足几项要求。请按照以下步骤操作,以确保您遵守相关准则。
报道网址
报道网址必须是独一无二的永久网址:
-
独一无二的网址:每个显示报道全文的网页都需要有一个独一无二的网址。Google 新闻无法收录通过同一网址显示多篇报道的网站,也无法收录没有报道专用网页链接的网站。
- 永久网址:为确保我们的报道链接正常运行,您的新闻网站上的每篇报道都必须与一个唯一的永久网址关联。例如,如果网页 www.yoursite.com/news1.html 每天显示不同的报道,我们将无法对其进行抓取。
重要提示:请勿在新网址下重新发布报道。
如果您日后重新发布某篇报道,其网址将保持不变。例如,如果某篇报道最初是在 www.example.com/news1.html 下发布的,那么它将不会重新发布在 www.example.com/news2.html 下。如果在更改网域或内容管理系统 (CMS) 结构的过程中,您的网址格式发生更改,请将您的格式转换规则发送给我们。我们可以帮助您完成这些格式更改。
页面布局准则
请确保我们的自动抓取工具能够轻松识别您的报道标题和发布时间。您的报道页面应采用 HTML 格式,且正文未嵌入到 JavaScript 中。