整合重複的網址

為相似或重複的網頁定義標準網頁

如果您有某一個網頁可透過多個網址存取,或是不同網頁上存在相似的內容 (例如同時有行動版和桌面版網頁),Google 會將這些網頁視為相同網頁的重複版本,從中選出一個網址做為「標準」版本並檢索該網址,其他網址則會被視為「重複」網址,檢索頻率會比較低。

如果您未將標準網址明確告知 Google,Google 會自行選擇標準網址,或是認定這些網址的參考權重都是一樣的,這可能會導致某些非預期的行為,詳情請見下方的「為什麼我必須選擇一個標準網址?」

什麼是標準網址?
所謂的「標準網址」,就是 Google 從網站的一組重複網頁中所選出的最具代表性網頁的網址。舉例來說,如果您的某個網頁有多個網址 (例如:example.com?dress=1234 和 example.com/dresses/1234),Google 便會選擇其中之一做為標準網址。請注意,這些網頁的內容不需要完全相同;以清單網頁來說,因為排序或篩選方式不同而造成的些許差異 (例如依價格排序,或依項目顏色篩選),並不會讓該網頁被視為具有獨特性。
標準網址也可能和其他重複網頁的網址位在不同網域中。
瞭解詳情
為網站建立索引時,Googlebot 會嘗試判定各個網頁的主要內容。如果 Googlebot 發現同一個網站上有多個網頁的內容相近,則會自行選擇以內容最完整實用的網頁做為標準網頁。為了減少 Google 在您網站上的檢索工作量,標準網頁將會是 Google 檢索最頻繁的網頁,其他重複網頁的檢索頻率則較低。
Google 會根據許多因素 (或「指標」) 選擇標準網頁,例如網頁是 http 網頁或 https 網頁、使用者宣告的偏好網域、網頁品質、有無在 Sitemap 中提供網址,以及是否加上了任何「rel=canonical」標記。您可以使用這些方式向 Google 告知您偏好的網頁,但 Google 仍可能基於各種原因選擇其他網頁做為標準網頁。
一個網頁的不同語言版本只有在主要內容都是同一種語言時,才會被視為重複網頁。也就是說,如果網頁中只有標頭、註腳和其他次要文字經過翻譯,但主體部分仍是同一種語言,就會被視為重複網頁。
Google 會將標準網頁做為評估內容和品質的主要依據。Google 搜尋結果通常會指向標準網頁,除非有某個重複網頁更明確符合使用者的需要:舉例來說,當使用者透過行動裝置進行搜尋時,即使標準網頁是電腦版網頁,搜尋結果仍可能會指向行動版網頁。

為什麼我會有相似/重複的網頁?

有許多因素可能造成您的網站出現不同的網址指向同一個網頁,或是內容重複或非常相似的網頁位於不同的網址。最常見的原因如下:

  • 為了支援多種裝置類型
    https://example.com/news/無尾熊亂撒野
    https://m.example.com/news/無尾熊亂撒野
    https://amp.example.com/news/無尾熊亂撒野
    
  • 因搜尋參數或工作階段 ID 這類元素的緣故而採用動態網址
    https://www.example.com/商品?類別=洋裝&顏色=綠色
    https://example.com/洋裝/禮服?gclid=ABCD
    https://www.example.com/洋裝/綠色/綠色洋裝.html
  • 在網誌的不同版面底下放置相同的文章,系統會自動儲存多個網址
    https://blog.example.com/洋裝/綠色洋裝真美麗/
    https://blog.example.com/綠色物件/綠色洋裝真美麗/
  • 伺服器設定為針對 www/非 www、http/https 版本的網址提供相同的內容
    http://example.com/綠色洋裝
    https://example.com/綠色洋裝
    http://www.example.com/綠色洋裝
    
  • 從您的網誌聯合發佈到其他網域中網站的內容,與原始內容有部分或全部是重複的:
    https://news.example.com/日常穿著的綠色洋裝-155672.html (聯合發佈文章) https://blog.example.com/洋裝/綠色洋裝真美麗/3245/ (原始文章)

為什麼我必須選擇一個標準網址?

基於以下的原因,我們建議您在一系列重複/相似的網頁中明確選擇一個標準網頁:

  • 指定要顯示在搜尋結果中的網址。您可能想讓使用者透過 https://www.example.com/洋裝/綠色/綠色洋裝.html 進入綠色洋裝商品網頁,而非 https://example.com/洋裝/禮服?gclid=ABCD
  • 整合相似或重複網頁的連結指標。這可協助搜尋引擎將個別網址的資訊 (例如造訪連結) 整合成單一偏好網址。不過,這也表示從其他網站連至 http://example.com/洋裝/禮服?gclid=ABCD 的連結,會與連至 https://www.example.com/洋裝/綠色/綠色洋裝.html 的連結整合。
  • 簡化單一商品/主題的追蹤指標。由於使用多個不同的網址,因此難以針對內容的特定部分取得一個整合性的指標。
  • 管理聯合發佈內容。 如果您以聯合發佈方式在其他網域發佈內容,可使用偏好網址彙整網頁排名。
  • 避免費時檢索重複的網頁。您會希望 Googlebot 在檢索您的網站時發揮最佳效能,盡量把時間花在檢索其中的最新 (或更新過的) 網頁,而不要費時檢索同一網頁的不同版本 (電腦版網頁和行動版網頁)。

Google 會將哪個網址視為我的標準網址?

您可以使用網址檢查工具來判斷 Google 會將哪個網頁視為標準網頁。提醒您,即使您已明確指定標準網頁,Google 仍可能基於各種原因 (例如成效或內容) 而選擇以另一個網頁做為標準網頁。

疑難排解

當標準網址不在您擁有的資源中時,您將無法查看相關重複網頁的流量。以下這些常見原因可能導致標準網址出現在另一個資源中:
  • 語言版本標示錯誤:如果您為不同地區的使用者設置了幾個專用網站,在這些網站上分別提供大致等值的本地化內容,請務必遵守我們對本地化網站的規範
  • 不當使用標準標記:有些內容管理系統 (CMS) 或 CMS 外掛程式在執行標準化做法時可能出錯,造成外部網站的網址被設為標準網址。請檢查您的內容,看看是否發生這種情形。如果您網站看來是使用了不符預期的標準化網址偏好設定 (可能使用了不正確的 rel="canonical" 或 301 重新導向),請直接修正問題。
  • 伺服器設定錯誤:某些代管設定錯誤可能會導致演算法選擇非預期的跨網域網址。例如:
    • 伺服器可能設定錯誤,例如針對 a.com 上的網址要求傳回 b.com 的內容
    • 兩個不相關的網路伺服器可能傳回相同的轉址式 404 錯誤網頁,但 Google 無法識別這些錯誤網頁。
  • 遭到駭客惡意入侵:有些針對網站的攻擊是植入傳回 HTTP 301 重新導向的程式碼,或在 HTML <head> 或 HTTP 標頭中插入跨網域 rel="canonical" link 元素 (通常會指向代管惡意或垃圾內容的網址)。在這些情況下,我們的演算法可能選擇惡意網址或垃圾網址,而不是選擇遭入侵網站上的網址。
  • 網站遭到入侵:在少數情況下,我們的演算法所選取的網址可能屬於未經授權即發佈您內容的外部網站。如果您認為其他網站違法 (版權法律) 複製您的內容,可與該網站的負責人聯絡,要求對方移除涉及侵權的內容。此外,您也可以根據《數位千禧年著作權法》(DMCA) 提出申訴,請 Google 從搜尋結果中移除侵權網頁。

指定標準網頁

您可以根據您的網頁用途,使用多種適合的方法為一系列重複的網頁指定標準網頁:

方法 說明
一般指南 以下指南適用於所有標準化方法。
指定偏好網域

使用 Search Console 將屬於其中一個網域的網址指定為標準網頁,屬於其他網域的網址則不是標準網頁。舉例來說,將 example.com 指定為標準網址時,www.example.com 就不是標準網址。當兩個相似的網站只有子網域不同時,才適用這個方法。如果二者的差別在於 http/https,則不適用這個方法。

優點:

  • 很容易實作、管理及變更。
  • 在不同的網域擁有相同的網站時適用。

缺點:

  • 只有網域不同時才適用,且網頁的路徑和名稱都必須相同,才會被視為重複的網頁。
  • 只能針對路徑名稱相同的網頁建立單一的網頁對網頁對應關係。
rel=canonical <link> 標記

在所有重複網頁的程式碼中加入 <link> 標記,指向標準網頁。

優點:

  • 可對應的重複網頁數量不限。

缺點:

  • 網頁檔案可能會因此變大。
  • 如果網站規模較為龐大,或是其中的網址經常變更,對應關係的維護作業會變得複雜。
  • 僅適用於 HTML 網頁,不適用於 PDF 這類檔案 (在這種情況下,您可以改用 rel=canonical HTTP 標頭)。
rel=canonical HTTP 標頭

在網頁回應中傳送 rel=canonical 標頭。

優點:

  • 網頁檔案不會變大。
  • 可對應的重複網頁數量不限。

缺點:

  • 如果網站規模較為龐大,或是其中的網址經常變更,對應關係的維護作業會變得複雜。
Sitemap

在 Sitemap 指定標準網頁。

優點:

  • 易於實作及維護,特別是對大型網站。

缺點:

  • Googlebot 仍須根據您在 Sitemap 中宣告的所有標準網頁判別相關聯的重複網頁。
  • 對 Googlebot 來說,Sitemap 的指標效力不及 rel=canonical 對應做法。
301 重新導向 使用 301 重新導向告知 Googlebot,重新導向的網址是優於指定網址的版本。只有在要淘汰重複的網頁時,才適用這個方法。
AMP 版本 如果其中一個網頁版本是 AMP 網頁,則必須按照 AMP 指南指出標準網頁和 AMP 版本。

 

我們鼓勵您使用上述方法,但是以上均非必要操作。如果您沒有指定標準網址,我們將自行指定一個我們認為最適合的版本或網址。

一般指南

所有標準化方法均適用以下一般指南。

一般指南
  • 請勿robots.txt 檔案用於標準化。
  • 請勿使用網址移除工具進行標準化,以免「所有」網址版本從搜尋結果中移除。
  • 無論使用何種標準化做法,請勿為相同的網頁指定不同網址做為標準網址 (舉例來說,請勿在 Sitemap 中為網頁指定一個網址,又使用 rel="canonical" 指定另一個網址)。
  • 請勿使用 noindex 將網頁排除在標準網頁的選擇之外。這個指令的用途是將網頁排除在索引範圍之外,而不是用來管理標準網頁的選擇。
  • 使用 hreflang 標記時,請務必指定標準網頁。請指定同一種語言的標準網頁,如果沒有的話,請指定最佳替代語言的標準網頁。

  • 在網站中提供連結時,請務必連結至標準網址,而非重複網址。一律使用您認定的標準網址來提供連結,有助於 Google 瞭解您的偏好網址。

使用 HTTPS 網址 (而非 HTTP 網址) 做為標準網址

認定網頁的標準網址時,Google 偏好的是 HTTPS 網頁 (而非 HTTP 網頁),除非有下列問題或衝突情形:

  • HTTPS 網頁含有無效的 SSL 憑證。
  • HTTPS 網頁含有不安全的相依關係 (圖片除外)。
  • HTTPS 網頁會將使用者重新導向 HTTP 網頁,或透過 HTTP 網頁重新導向使用者。
  • HTTPS 網頁含有指向 HTTP 網頁的 rel="canonical" 連結。

根據預設,我們的系統偏好 HTTPS 網頁 (而非 HTTP 網頁),不過您仍可採取下列任一做法,確保這種行為不會遭到覆寫:

  • 新增重新導向,從 HTTP 網頁指向 HTTPS 網頁。
  • 新增 rel="canonical" 連結,從 HTTP 網頁指向 HTTPS 網頁。
  • 採用 HSTS

請勿採用下列做法,以免 Google 誤將 HTTP 網頁當成標準網頁:

  • 無效的 SSL 憑證和 HTTPS 至 HTTP 重新導向很可能讓我們使用 HTTP 網頁,採用 HSTS 仍無法覆寫這項偏好設定。
  • 在 Sitemap 或 hreflang 項目中加入 HTTP 網頁,而不是 HTTPS 版本。
  • 為錯誤的主機名稱版本採用 SSL/TLS 憑證:例如 example.com 提供 www.example.com 的憑證。憑證必須與完整網站網址相符,或是可供單一網域中多個子網域使用的萬用憑證。

僅適合進階使用者:要求 Google 忽略動態參數

您可以透過參數處理方式告知 Googlebot 在檢索時應忽略哪些參數。忽略特定參數能夠減少 Google 索引中的重複內容,讓您的網站更容易檢索。舉例來說,如果您指定忽略 sessionid 參數,Googlebot 就會將以下兩個網址視為重複:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

具體方法

您可以選擇使用下列其中一種方法,為重複的網址或重複/相似的網頁指定標準網址。

無論採用哪一種方法,請務必遵守上述一般指南。

設定偏好網域

透過 Search Console 告知 Google 您的偏好網域,藉以指出網站的標準網址版本:

  • https://www.example.com
  • https://example.com

如果您的偏好網域為 https://example.com,Google 會將 www.example.com 中相似的網址或網頁視為 example.com 中網頁的重複項目。

如要瞭解詳情,請參閱設定偏好網域

使用 rel="canonical" 連結標記

您可以在網頁標頭中使用 <link> 標記來指出該網頁與其他網頁內容重複。

如果您要使用 https://example.com/洋裝/綠色洋裝 做為標準網址 (即使可透過其他網址存取相同的內容),請按照下列步驟將這個網址指定為標準網址:

  1. 使用 rel="canonical"「link 元素」來標記所有重複網頁。如下所示,在重複網頁的 <head> 區段中新增 <link> 元素 (將屬性設為 rel="canonical"),指向標準網頁:
    <link rel="canonical" href="https://example.com/洋裝/綠色洋裝" />

  2. 如果「標準」網頁有行動版,請新增指向行動版網頁的 rel="alternate" 連結:
    <link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/洋裝/綠色洋裝">

  3. 為網頁加上 hreflang 或其他適當的重新導向

使用絕對路徑 (而非相對路徑) 來搭配 rel="canonical" link 元素。

建議結構:https://www.example.com/洋裝/綠色/綠色洋裝.html
「非」建議結構:/洋裝/綠色/綠色洋裝.html
使用 rel="canonical" HTTP 標頭

如果您能設定伺服器,則可使用 rel="canonical" HTTP 標頭 (而非 HTML 標記) 來指定非 HTML 文件 (例如 PDF 檔案) 的標準網址。

舉例來說,如果您透過多個網址提供 PDF 檔案,可以針對重複的網址傳回 rel="canonical" HTTP 標頭 (如下所示),藉此將 PDF 檔案的標準網址告知 Googlebot:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Google 目前僅針對網頁搜尋結果支援這個方法。

使用絕對路徑 (而非相對路徑) 來搭配 rel="canonical" link 元素。方法如下:
建議結構:http://www.example.com/downloads/white-paper.pdf
「非」建議結構:/downloads/white-paper.pdf
使用 Sitemap

您可以為每個網頁挑選一個標準網址,然後透過 Sitemap 提交。Sitemap 中列出的所有網頁都是建議的標準網頁;Googlebot 會根據內容相似度判斷哪些網頁屬於重複的網頁 (如果有的話)。

我們「不保證」一定會將 Sitemap 中的網址視為標準網址,但 Sitemap 是為大型網站定義標準網址的簡易方法,也很適合用來告知 Google 您認為哪些是網站上最重要的網頁。

請勿在 Sitemap 中加入非標準網頁。使用 Sitemap 時,您只能在其中指定標準網址。

針對已停用的網址使用 301 重新導向

如果您要淘汰現有的重複網頁,但必須確保在舊網址失效前能順利進行轉換,請使用這個方法。

如果使用者可以透過多種方式進入您的網頁:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

選擇其中一個網址做為標準網址,然後使用 301 重新導向將來自其他網址的流量傳送至您的偏好網址。伺服器端 301 重新導向是確保使用者和搜尋引擎都能導向至正確網頁的最佳方法。301 狀態碼表示網頁已永久遷移至新的位置。

如果您是在使用代管服務的網站上,請搜尋如何設定 301 重新導向的相關說明文件。

這對您有幫助嗎?
我們應如何改進呢?