整合重复网址

为类似网页或重复网页指定规范网页

摘要

如果您的某一个网页可通过多个网址访问,或者您的不同网页包含类似内容(例如,某个网页既有移动版,又有桌面版),那么 Google 会将这些网页视为同一个网页的重复版本。Google 会选择一个网址作为规范版本并抓取该网址,而将所有其他网址视为重复网址并降低对这些网址的抓取频率。

如果您未明确告知 Google 哪个网址是规范网址,Google 就会替您做出选择,或会将这两个版本视为同等重要,这可能会导致出现一些不当的行为(如下文中的“我为什么要选择规范网址”中所述)。

更多详情
此部分中提供了更多与规范化有关的信息;如果您不需要这些信息,请直接略过。但如果您对此类内容感兴趣,则可留为己用(这也是我们提供这些内容的初衷)。
当 Googlebot 将某个网站编入索引时,它会尝试确定此网站的每个网页中涵盖的主题。如果 Googlebot 在同一网站上发现了多个似乎包含相同内容的网页,则会选择它认为最完整且实用的那个网页,并将其标记为规范网页。为了节省您网站的抓取预算,我们会经常抓取规范网页,而不会频繁地抓取重复网页。因此,如果您不告知 Googlebot 哪个网页是规范网页,并且决定将一个不同的网页(与 Googlebot 所选的网页不同)作为规范网页,那么 Googlebot 便可能不会经常将您耗费大量精力更新的网页编入索引或在搜索结果中显示该网页。
Google 会使用您网站上的规范网页作为网站内容的黄金标准对网站内容和质量进行评估,Google 搜索结果通常亦会指向规范网页,除非某个重复网页明显与用户的查询更相符:例如,如果用户使用的是移动设备,那么即使桌面版网页被标记为规范网页,搜索结果也可能会指向移动版网页。
Google 会根据许多因素(或“信号”)来选择规范网页,例如网页是通过 http 还是 https 提供;用户声明的首选网域;网页质量;站点地图中是否显示了相应网址;以及任何“rel=canonical”标签。您不能强制要求 Google 将哪个网页选作规范网页,但可通过使用下文中所述的一种或多种方法来影响 Google 的选择。

 

为什么我的网站上会有类似网页/重复网页?

您的网站上可能会有多个不同的网址指向同一个网页,或者在不同网址上有重复网页或非常类似的网页,这是有正当理由的。以下是最常见的原因:

  • 为了支持多种设备类型
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • 为了为诸如搜索参数或会话 ID 之类的内容启用动态网址
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • 当您将同一篇博文同时放在多个版块中时,您的博客系统会自动保存多个网址
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • 您的服务器已配置为针对 www/非 www http/https 变体提供相同的内容
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • 您在相应博客上提供的要转载到其他网站上的内容与这些网域中的原有内容完全重复或部分重复:
    https://news.example.com/green-dresses-for-every-day-155672.html(转载博文)https://blog.example.com/dresses/green-dresses-are-awesome/3245/(原始博文)

我为什么要选择规范网址?

从一组重复网页/类似网页中明确选择规范网页可满足您的诸多需求,具体如下所示:

  • 指定您希望用户在搜索结果中看到的网址。您可能希望用户通过 https://www.example.com/dresses/green/greendress.html(而非 https://example.com/dresses/cocktail?gclid=ABCD)访问您的绿色礼服商品页。
  • 整合类似网页或重复网页的链接信号。明确选择规范网页可帮助搜索引擎将它们在各个网址(例如,指向它们的链接)上找到的信息整合到一个首选网址上。也就是说,从其他网站指向 http://example.com/dresses/cocktail?gclid=ABCD 的链接会与指向 https://www.example.com/dresses/green/greendress.html 的链接整合。
  • 简化单个商品/主题的跟踪指标。如果特定内容可以通过多个网址访问,获取此内容的综合指标的难度会更大。
  • 管理转载内容。 如果您是为了将内容发布到其他网域而对其进行转载,那您就需要将网页排名整合到首选网址。
  • 避免花费时间抓取重复网页。您肯定希望 Googlebot 能够最大限度地发现您网站的价值,因此最好让它花费时间抓取您网站上的新网页(或更新后的网页),而不是抓取相同网页的桌面版和移动版。

Google 会将哪类网址视为规范网址(或重复网址)?

使用网址检查工具可了解 Google 将哪个网页视为规范网页。请注意,即使您明确指定了规范网页,Google 也可能会出于各种原因(例如性能或内容)选择不同的规范网页。

指定规范网页

您可通过几种不同的方法在一组重复网页中指定规范网页,具体取决于您的使用情形:

方法 说明
常规指南 无论使用哪种规范化方法,都请遵循以下指南。
指定首选网域

使用 Search Console 将一个网域上的网址(而非另一个网域上的对应网址)指定为规范网址。例如,将 example.com(而非 www.example.com)指定为规范网址。请仅在您有两个类似的网站(只是子网域不同)时使用此方法。不要将此方法应用于对应的 http/https 网站。

优点:

  • 非常便于实现、管理和更改。
  • 如果您在不同的网域上有完全相同的网站,请使用此方法。

缺点:

  • 仅适用于网域级别,而且网页必须具有完全相同的路径和名称才会被视为重复网页。
  • 仅允许对路径和名称完全相同的网页进行 1 次页间映射。
rel=canonical <link> 标记

在所有重复网页的代码中分别添加一个 <link> 标记,并使其指向规范网页。

优点:

  • 可以映射无限多个重复网页。

缺点:

  • 可能会导致网页大小增加。
  • 在大型网站或网址经常改变的网站上维护映射可能会比较复杂。
  • 仅适用于 HTML 网页,不适用于 PDF 之类的文件(在这种情况下,您可以使用 rel=canonical HTTP 标头)。
rel=canonical HTTP 标头

在您的网页响应中发送 rel=canonical 标头。

优点:

  • 不会导致网页大小增加。
  • 可以映射无限多个重复网页。

缺点:

  • 在大型网站或网址经常改变的网站上维护映射可能会比较复杂。
站点地图

在站点地图中指定您的规范网页。

优点:

  • 易于执行和维护,尤其是在大型网站上。

缺点:

  • Googlebot 仍必须为您在站点地图中声明的所有规范网页确定关联的重复网页。
  • 此方法向 Googlebot 发送的信号不如 rel=canonical 映射方法发送的信号强。
301 重定向 使用 301 重定向告知 Googlebot,重定向网址是比给定网址更佳的版本。请仅在弃用重复网页时使用此方法。
AMP 变体 如果您的某个网页变体是 AMP 网页,您将需要按照 AMP 指南来指明规范网页和 AMP 变体。

 

上述方法只是我们的建议,并非硬性要求。如果您未指明规范网址,我们会自行确定一个最佳的版本/网址。

常规指南

无论使用哪种规范化方法,都请遵循以下常规指南。

常规指南
  • 请勿使用 robots.txt 文件进行规范化。
  • 请勿使用网址移除工具进行规范化:它会从搜索结果中移除网址的所有版本。
  • 请勿使用相同或不同的规范化方法为同一网页指定不同的规范网址(例如,请勿既在站点地图中为某个网页指定了一个规范网址,又使用 rel="canonical" 为同一网页指定了另一个规范网址)。
  • 请勿使用 noindex 来阻止选择规范网页。此指令旨在从索引中排除网页,而不是管理对规范网页的选择。
  • 使用 hreflang 标记时,请务必指定规范网页。指定一个采用同一语言的规范网页;如果没有这样的规范网页,则需指定一个采用最佳替代语言的规范网页。

优先选择 HTTPS(而非 HTTP)作为规范网址

Google 会优先选择 HTTPS 网页(而非等效的 HTTP 网页)作为规范网址,除非存在如下问题或冲突信号:

  • HTTPS 网页的 SSL 证书无效。
  • HTTPS 网页包含不安全的关联功能(图片除外)。
  • HTTPS 网页会将用户重定向至 HTTP 网页或会通过 HTTP 网页重定向用户。
  • HTTPS 网页包含指向 HTTP 网页的 rel="canonical" 链接。

虽然我们的系统在默认情况下会优先选择 HTTPS 网页(而非 HTTP 网页),但您可通过执行以下任一操作来确保此行为始终都会发生:

  • 添加从 HTTP 网页指向 HTTPS 网页的重定向。
  • 添加从 HTTP 网页指向 HTTPS 网页的 rel="canonical" 链接。
  • 实施 HSTS

为防止 Google 误将 HTTP 网页选为规范网页,您应避免以下几种做法:

  • 使用有误的 SSL 证书和 HTTPS-HTTP 重定向。这会非常容易导致我们优先选择 HTTP,即使实施 HSTS 也无法替换这种强烈的偏好设置。
  • 在站点地图或 hreflang 条目中包含 HTTP 网页(而不是 HTTPS 版本)。
  • 为错误的主机版本实施 SSL/TLS 证书:例如,在 example.com 上为 www.example.com 提供证书。该证书必须与您的完整网站网址匹配,或者必须是可用于同一网域上多个子网域的通配证书。

告诉 Google 忽略某些动态参数

使用“参数处理”功能告知 Googlebot 在抓取时应忽略哪些参数。忽略某些参数既可减少 Google 索引中的重复内容,也可使您的网站更易于抓取。例如,如果您指定应忽略参数 sessionid,Googlebot 会认为以下两个网址是重复网址:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

具体方法

若想为重复网址或重复网页/类似网页指定规范网址,请选择下列方法之一。

无论使用哪种方法,都请务必遵守上述常规指南。

设置首选网域

使用 Search Console 告知 Google,您想将您网站网址的哪个版本用作您网域的规范网址:

  • https://www.example.com
  • https://example.com

如果您将首选网域设为 https://example.com,Google 便会将 www.example.com 上的类似网址或网页视为与 example.com 上的网页重复。

有关详情,请参阅设置您的首选网域

使用 rel="canonical" 链接标记

您可在网页标头中使用 <link> 标记指明某个网页与另一个网页重复的情况。

假设您想将 https://example.com/dresses/green-dresses 设为规范网址(即使有很多个网址指向该内容),那么您可通过执行以下步骤将此网址指定为规范网址:

  1. 使用 rel="canonical" link 元素标记所有重复的网页将带有 rel="canonical" 属性的 <link> 元素添加到重复网页的 <head> 部分中,并使其指向规范网页,如下所示:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. 如果规范网页有移动版,请为其添加 rel="alternate" 链接,并指向此网页的移动版:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. 为此网页添加 hreflang 或其他适当的重定向

对于 rel="canonical" link 元素,请使用绝对路径(而非相对路径)

建议使用的结构:https://www.example.com/dresses/green/greendresss.html
不建议使用的结构:/dresses/green/greendress.html
使用 rel="canonical" HTTP 标头

如果您能配置自己的服务器,则可使用 rel="canonical" HTTP 标头(而非 HTML 标记)为非 HTML 文档(例如 PDF 文件)指明规范网址。

例如,如果您通过多个网址显示某个 PDF 文件,则可为重复的网址返回如下 rel="canonical" HTTP 标头,以将该 PDF 文件的规范网址告知 Googlebot:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

目前,Google 仅支持在网页搜索结果中使用此方法。

对于 rel="canonical" link 元素,请使用绝对路径(而非相对路径)。即:
建议使用的结构:http://www.example.com/downloads/white-paper.pdf
不建议使用的结构:/downloads/white-paper.pdf
使用站点地图

请分别为您的每个网页选择一个规范网址,然后通过站点地图提交这些规范网址。您在站点地图中列出的所有网页都会被视为向系统建议的规范网页;Googlebot 会根据内容相似度来决定哪些网页是重复网页(如果有)。

我们不能保证一定会将站点地图中的网址视为规范网址,但您可通过这种简单的方法为大型网站指定规范网址,您也可以通过站点地图这种实用方法告知 Google 您认为自己网站上的哪些网页最重要。

请勿在站点地图中添加非规范网页。如果要使用站点地图,请在其中仅指定规范网址。

对已停用的网址使用 301 重定向

如果您想移除现有的重复网页,但需要确保在停用旧网址之前顺利完成迁移,请使用此方法。

假定用户可通过以下几种方式访问您的网页:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

您可从这些网址中挑选一个作为规范网址,并使用 301 重定向将来自其他网址的流量引导至您的首选网址。服务器端 301 重定向是确保将用户和搜索引擎定向到正确网页的最佳方式。301 状态代码表示网页已永久地迁移到新位置。

如果您使用的是网站托管服务,请搜索有关设置 301 重定向的文档。

本文是否对您有帮助?
您有什么改进建议?