整合重複的網址

為相似或重複的網頁定義標準網頁

摘要

如果您有某一個網頁可透過多個網址存取,或是不同網頁上存在相似的內容 (例如同時有行動版和桌面版網頁),Google 會將這些網頁視為相同網頁的重複版本,從中選出一個網址做為「標準」版本並檢索該網址,其他網址則會被視為「重複」網址,檢索頻率會比較低。

如果您未將標準網址明確告知 Google,Google 會自行選擇標準網址,或是認定這些網址的參考權重都是一樣的,這可能會導致某些非預期的行為,詳情請見下方的「為什麼我會有相似/重複的網頁?」

瞭解詳情
這部分的標準化相關資訊可能超出了一般網站管理員需要瞭解的範疇,所以您可以跳過這一節的內容。不過,如果您對這方面的主題感興趣,歡迎繼續閱讀以下的說明。
為網站建立索引時,Googlebot 會嘗試判定各個網頁所涵蓋的主題。如果 Googlebot 發現同一個網站上有多個網頁的內容相近,則會自行選擇以內容最完整實用的網頁做為標準網頁。為了節省在您網站上的檢索預算,我們將最常檢索標準網頁,較少檢索其他重複的網頁。因此,如果您認定的標準網頁與 Googlebot 不同,且您未告知 Googlebot 的話,Googlebot 可能不會經常為您持續辛苦更新的網頁建立索引,該網頁也不容易顯示在搜尋結果中。
Google 會使用您網站上的標準網頁做為網站內容的首要標準,進而對內容和品質進行評估,且 Google 搜尋結果通常會指向標準網頁,除非其中一個重複的網頁更明確符合使用者的查詢:舉例來說,當使用者透過行動裝置進行搜尋時,即使標準網頁是電腦版網頁,搜尋結果仍可能會指向行動版網頁。
Google 會根據許多因素 (或「指標」) 選擇標準網頁,例如網頁是 http 網頁或 https 網頁、使用者宣告的偏好網域、網頁品質、有無在 Sitemap 中提供網址,以及是否加上了任何「rel=canonical」標記。您無法強制 Google 選擇特定的標準網頁,但可以使用這裡提到的一或多項做法影響 Google 的選擇。

 

為什麼我會有相似/重複的網頁?

有許多因素可能造成您的網站出現不同的網址指向同一個網頁,或是內容重複或非常相似的網頁位於不同的網址。最常見的原因如下:

  • 為了支援多種裝置類型
    https://example.com/news/無尾熊亂撒野
    https://m.example.com/news/無尾熊亂撒野
    https://amp.example.com/news/無尾熊亂撒野
    
  • 因搜尋參數或工作階段 ID 這類元素的緣故而採用動態網址
    https://www.example.com/商品?類別=洋裝&顏色=綠色
    https://example.com/洋裝/禮服?gclid=ABCD
    https://www.example.com/洋裝/綠色/綠色洋裝.html
  • 在網誌的不同版面底下放置相同的文章,系統會自動儲存多個網址
    https://blog.example.com/洋裝/綠色洋裝真美麗/
    https://blog.example.com/綠色物件/綠色洋裝真美麗/
  • 伺服器設定為針對 www/非 www、http/https 版本的網址提供相同的內容
    http://example.com/綠色洋裝
    https://example.com/綠色洋裝
    http://www.example.com/綠色洋裝
    
  • 從您的網誌聯合發佈到其他網域中網站的內容,與原始內容有部分或全部是重複的:
    https://news.example.com/日常穿著的綠色洋裝-155672.html (聯合發佈文章) https://blog.example.com/洋裝/綠色洋裝真美麗/3245/ (原始文章)

為什麼我必須選擇一個標準網址?

基於以下的原因,我們建議您在一系列重複/相似的網頁中明確選擇一個標準網頁:

  • 指定要顯示在搜尋結果中的網址。您可能想讓使用者透過 https://www.example.com/洋裝/綠色/綠色洋裝.html 進入綠色洋裝商品網頁,而非 https://example.com/洋裝/禮服?gclid=ABCD
  • 整合相似或重複網頁的連結指標。這可協助搜尋引擎將個別網址的資訊 (例如造訪連結) 整合成單一偏好網址。不過,這也表示從其他網站連至 http://example.com/洋裝/禮服?gclid=ABCD 的連結,會與連至 https://www.example.com/洋裝/綠色/綠色洋裝.html 的連結整合。
  • 簡化單一商品/主題的追蹤指標。由於使用多個不同的網址,因此難以針對內容的特定部分取得一個整合性的指標。
  • 管理聯合發佈內容。 如果您以聯合發佈方式在其他網域發佈內容,可使用偏好網址彙整網頁排名。
  • 避免費時檢索重複的網頁。您會希望 Googlebot 在檢索您的網站時發揮最佳效能,儘量把時間花在檢索其中的最新 (或更新過的) 網頁,而不要費時檢索同一網頁的不同版本 (電腦版網頁和行動版網頁)。

Google 會將哪些網址視為標準網頁 (或重複的網頁)?

您可以使用網址檢查工具來判斷 Google 會將哪個網頁視為標準網頁。提醒您,即使您已明確指定標準網頁,Google 仍可能基於各種原因 (例如成效或內容) 而選擇以另一個網頁做為標準網頁。

指定標準網頁

您可以根據您的網頁用途,使用多種適合的方法為一系列重複的網頁指定標準網頁:

方法 說明
一般指南 以下指南適用於所有標準化方法。
指定偏好網域

使用 Search Console 將屬於其中一個網域的網址指定為標準網頁,屬於其他網域的網址則不是標準網頁。舉例來說,將 example.com 指定為標準網址時,www.example.com 就不是標準網址。當兩個相似的網站只有子網域不同時,才適用這個方法。如果二者的差別在於 http/https,則不適用這個方法。

優點:

  • 很容易實作、管理及變更。
  • 在不同的網域擁有相同的網站時適用。

缺點:

  • 只有網域不同時才適用,且網頁的路徑和名稱都必須相同,才會被視為重複的網頁。
  • 只能針對路徑名稱相同的網頁建立單一的網頁對網頁對應關係。
rel=canonical <link> 標記

在所有重複網頁的程式碼中加入 <link> 標記,指向標準網頁。

優點:

  • 可對應的重複網頁數量不限。

缺點:

  • 網頁檔案可能會因此變大。
  • 如果網站規模較為龐大,或是其中的網址經常變更,對應關係的維護作業會變得複雜。
  • 僅適用於 HTML 網頁,不適用於 PDF 這類檔案 (在這種情況下,您可以改用 rel=canonical HTTP 標頭)。
rel=canonical HTTP 標頭

在網頁回應中傳送 rel=canonical 標頭。

優點:

  • 網頁檔案不會變大。
  • 可對應的重複網頁數量不限。

缺點:

  • 如果網站規模較為龐大,或是其中的網址經常變更,對應關係的維護作業會變得複雜。
Sitemap

在 Sitemap 指定標準網頁。

優點:

  • 易於實作及維護,特別是對大型網站。

缺點:

  • Googlebot 仍須根據您在 Sitemap 中宣告的所有標準網頁判別相關聯的重複網頁。
  • 對 Googlebot 來說,Sitemap 的指標效力不及 rel=canonical 對應做法。
301 重新導向 使用 301 重新導向告知 Googlebot,重新導向的網址是優於指定網址的版本。只有在要淘汰重複的網頁時,才適用這個方法。
AMP 版本 如果其中一個網頁版本是 AMP 網頁,則必須按照 AMP 指南指出標準網頁和 AMP 版本。

 

我們鼓勵您使用上述方法,但是以上均非必要操作。如果您沒有指定標準網址,我們將自行指定一個我們認為最適合的版本或網址。

一般指南

所有標準化方法均適用以下一般指南。

一般指南
  • 請勿robots.txt 檔案用於標準化。
  • 請勿使用網址移除工具進行標準化,以免「所有」網址版本從搜尋結果中移除。
  • 無論是否使用相同的標準化做法,請勿為相同的網頁指定不同網址做為標準網址 (舉例來說,請勿在 Sitemap 中為網頁指定一個網址,同時使用 rel="canonical" 為網頁指定另一個網址)。
  • 請勿使用 noindex 做為不選擇標準網頁的方法。這個指令的用途是將網頁排除在索引範圍之外,而不是管理標準網頁的選擇。
  • 使用 hreflang 標記時,您必須指定標準網頁。請指定同一種語言的標準網頁,如果沒有的話,請指定最佳替代語言的標準網頁。

使用 HTTPS 網址 (而非 HTTP 網址) 做為標準網址

認定網頁的標準網址時,Google 偏好的是 HTTPS 網頁 (而非 HTTP 網頁),除非有下列問題或衝突情形:

  • HTTPS 網頁含有無效的 SSL 憑證。
  • HTTPS 網頁含有不安全的相依關係 (圖片除外)。
  • HTTPS 網頁會將使用者重新導向 HTTP 網頁,或透過 HTTP 網頁重新導向使用者。
  • HTTPS 網頁含有指向 HTTP 網頁的 rel="canonical" 連結。

根據預設,我們的系統偏好 HTTPS 網頁 (而非 HTTP 網頁),不過您仍可採取下列任一做法,確保這種行為不會遭到覆寫:

  • 新增重新導向,從 HTTP 網頁指向 HTTPS 網頁。
  • 新增 rel="canonical" 連結,從 HTTP 網頁指向 HTTPS 網頁。
  • 採用 HSTS

請勿採用下列做法,以免 Google 誤將 HTTP 網頁當成標準網頁:

  • 無效的 SSL 憑證和 HTTPS 至 HTTP 重新導向很可能讓我們使用 HTTP 網頁,採用 HSTS 仍無法覆寫這項偏好設定。
  • 在 Sitemap 或 hreflang 項目中加入 HTTP 網頁,而不是 HTTPS 版本。
  • 為錯誤的主機名稱版本採用 SSL/TLS 憑證:例如 example.com 提供 www.example.com 的憑證。憑證必須與完整網站網址相符,或是可供單一網域中多個子網域使用的萬用憑證。

要求 Google 忽略動態參數

您可以透過參數處理方式告知 Googlebot 在檢索時應忽略哪些參數。忽略特定參數能夠減少 Google 索引中的重複內容,讓您的網站更容易檢索。舉例來說,如果您指定忽略 sessionid 參數,Googlebot 就會將以下兩個網址視為重複:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

具體方法

您可以選擇使用下列其中一種方法,為重複的網址或重複/相似的網頁指定標準網址。

無論採用哪一種方法,請務必遵守上述一般指南。

設定偏好網域

透過 Search Console 告知 Google 您的偏好網域,藉以指出網站的標準網址版本:

  • https://www.example.com
  • https://example.com

如果您的偏好網域為 https://example.com,Google 會將 www.example.com 中相似的網址或網頁視為 example.com 中網頁的重複項目。

如要瞭解詳情,請參閱設定偏好網域

使用 rel="canonical" 連結標記

您可以在網頁標頭中使用 <link> 標記來指出該網頁與其他網頁內容重複。

如果您要使用 https://example.com/洋裝/綠色洋裝 做為標準網址 (即使可透過其他網址存取相同的內容),請按照下列步驟將這個網址指定為標準網址:

  1. 使用 rel="canonical"「連結元素」標記所有重複的網頁。如下所示,在重複網頁的 <head> 區段中新增 <link> 元素 (將屬性設為 rel="canonical"),指向標準網頁:
    <link rel="canonical" href="https://example.com/洋裝/綠色洋裝" />

  2. 如果「標準」網頁有行動版,請新增 rel="alternate" 連結,指向行動版網頁:
    <link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/洋裝/綠色洋裝">

  3. 為網頁加上 hreflang 或其他適當的重新導向

使用絕對路徑 (而非相對路徑) 來搭配 rel="canonical" 連結元素。

建議結構:https://www.example.com/洋裝/綠色/綠色洋裝.html
「非」建議結構:/洋裝/綠色/綠色洋裝.html
使用 rel="canonical" HTTP 標頭

如果您能設定伺服器,則可使用 rel="canonical" HTTP 標頭 (而非 HTML 標記) 來指定非 HTML 文件 (例如 PDF 檔案) 的標準網址。

舉例來說,如果您透過多個網址提供 PDF 檔案,可以針對重複的網址傳回 rel="canonical" HTTP 標頭 (如下所示),藉此將 PDF 檔案的標準網址告知 Googlebot:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Google 目前僅針對網頁搜尋結果支援這個方法。

使用絕對路徑 (而非相對路徑) 來搭配 rel="canonical" 連結元素。方法如下:
建議結構:http://www.example.com/downloads/white-paper.pdf
「非」建議結構:/downloads/white-paper.pdf
使用 Sitemap

您可以為每個網頁挑選一個標準網址,然後透過 Sitemap 提交。Sitemap 中列出的所有網頁都是建議的標準網頁;Googlebot 會根據內容相似度判斷哪些網頁屬於重複的網頁 (如果有的話)。

我們「不保證」一定會將 Sitemap 中的網址視為標準網址,但 Sitemap 是為大型網站定義標準網址的簡易方法,也很適合用來告知 Google 您認為哪些是網站上最重要的網頁。

請勿在 Sitemap 中加入非標準網頁。使用 Sitemap 時,您只能在其中指定標準網址。

針對已停用的網址使用 301 重新導向

如果您要淘汰現有的重複網頁,但必須確保在舊網址失效前能順利進行轉換,請使用這個方法。

如果使用者可以透過多種方式進入您的網頁:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

選擇其中一個網址做為標準網址,然後使用 301 重新導向將來自其他網址的流量傳送至您的偏好網址。伺服器端 301 重新導向是確保使用者和搜尋引擎都能導向至正確網頁的最佳方法。301 狀態碼表示網頁已永久遷移至新的位置。

如果您在使用代管服務的網站上,請搜尋關於如何設定 301 重新導向的說明文件。

這篇文章實用嗎?
我們應如何改進呢?