Hợp nhất các URL trùng lặp

Xác định trang chuẩn cho các trang tương tự hoặc trùng lặp

Nếu bạn có một trang có thể truy cập qua nhiều URL hoặc các trang khác nhau có nội dung tương tự (ví dụ: trang có cả phiên bản dành cho thiết bị di động và máy tính), thì Google sẽ xem các trang này là phiên bản trùng lặp của cùng một trang. Google sẽ chọn một URL làm phiên bản chuẩn và thu thập dữ liệu trang đó. Google sẽ xem tất cả URL khác là URL trùng lặp và thu thập dữ liệu các trang này ít hơn. 

Nếu bạn không nêu rõ cho Google biết đâu là URL chuẩn, Google sẽ thay bạn chọn URL chuẩn hoặc có thể xem các trang này có tầm quan trọng như nhau. Điều này có thể dẫn đến hành vi không mong muốn như được giải thích trong phần Tại sao tôi nên chọn URL chuẩn? bên dưới.

URL chuẩn là gì?
URL chuẩn là URL của trang mà Google cho là trang đại diện phù hợp nhất trong số các trang trùng lặp trên trang web của bạn. Ví dụ: nếu bạn có nhiều URL cho cùng một trang (ví dụ: example.com?dress = 1234 và example.com/dresses/1234), Google sẽ chọn một trang làm trang chuẩn. Xin lưu ý rằng các trang này không nhất thiết phải giống nhau hoàn toàn. Những thay đổi nhỏ trong việc sắp xếp hoặc lọc các trang danh sách không làm cho trang trở nên độc đáo (ví dụ: sắp xếp theo giá hoặc lọc theo màu của sản phẩm).
Trang chuẩn có thể nằm trên miền khác với trang trùng lặp.
Chi tiết khác
Khi lập chỉ mục một trang web, Googlebot sẽ cố gắng xác định nội dung chính của mỗi trang. Nếu tìm thấy nhiều trang trong cùng một trang web có vẻ giống nhau, Googlebot sẽ chọn trang mà công cụ này nghĩ là hoàn chỉnh và hữu ích nhất và đánh dấu trang đó là trang chuẩn. Trang chuẩn sẽ được thu thập dữ liệu thường xuyên nhất. Quy trình này được thực hiện ít hơn với các trang trùng lặp để giảm tải thu thập dữ liệu của Google trên trang web của bạn.
Google chọn trang chuẩn dựa trên một số yếu tố (hoặc tín hiệu), chẳng hạn như việc trang được phân phối qua http hay https; chất lượng trang; sự hiện diện của URL trong sơ đồ trang web; cũng như bất kỳ nhãn "rel = canonical" nào. Bạn có thể cho Google biết trang mà bạn chọn bằng các kỹ thuật này, nhưng Google có thể chọn một trang chuẩn khác so với bạn vì nhiều lý do.
Các phiên bản bằng ngôn ngữ khác của một trang chỉ được coi là trùng lặp nếu nội dung chính viết bằng cùng một ngôn ngữ (nghĩa là nếu chỉ có phần đầu trang, chân trang và văn bản không quan trọng khác được dịch còn phần nội dung chính vẫn giữ nguyên, thì các trang được coi là trùng lặp).
Google sử dụng các trang chuẩn làm nguồn chính để đánh giá nội dung và chất lượng. Kết quả trên Google Tìm kiếm thường trỏ đến trang chuẩn, trừ khi một trong các trang trùng lặp phù hợp hơn rõ rệt với một người dùng. Ví dụ: kết quả tìm kiếm có thể sẽ trỏ đến trang dành cho thiết bị di động nếu người dùng đang sử dụng thiết bị di động, ngay cả khi trang trên máy tính để bàn được đánh dấu là trang chuẩn.

Tại sao tôi có các trang tương tự/trùng lặp?

Có nhiều lý do xác đáng cho việc trang web của bạn có thể có nhiều URL khác nhau trỏ đến cùng một trang hoặc có các trang trùng lặp hoặc rất giống nhau tại các URL khác nhau. Dưới đây là các lý do phổ biến nhất:

  • Để hỗ trợ nhiều loại thiết bị:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • Để bật URL động cho thông số tìm kiếm, ID phiên hoạt động, v.v.:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Hệ thống blog của bạn tự động lưu nhiều URL khi bạn đặt cùng một bài đăng dưới nhiều mục.
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Nếu máy chủ của bạn được định cấu hình để phân phối cùng một nội dung cho cả biến thể http/https có www lẫn không có www:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Nếu nội dung bạn cung cấp trên blog đó để phân phối đến các trang web khác được sao chép một phần hoặc toàn bộ trên các miền đó:
    https://news.example.com/green-dresses-for-every-day-155672.html (bài đăng được phân phối) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (bài đăng gốc)

Tại sao tôi nên chọn URL chuẩn?

Có một số lý do tại sao bạn nên chọn trang chuẩn rõ ràng trong một tập hợp các trang trùng lặp/tương tự:

  • Để chỉ định URL mà bạn muốn mọi người nhìn thấy trong kết quả tìm kiếm. Bạn muốn mọi người truy cập trang sản phẩm váy màu xanh lá của mình thông qua https://www.example.com/dresses/green/greendress.html chứ không phải https://example.com/dresses/cocktail?gclid=ABCD.
  • Để hợp nhất tín hiệu liên kết cho các trang tương tự hoặc trùng lặp. Điều này giúp công cụ tìm kiếm hợp nhất thông tin có được cho từng URL riêng lẻ (chẳng hạn như liên kết đến các URL này) thành một URL duy nhất ưa thích. Điều này nghĩa là liên kết từ các trang web khác đến http://example.com/dresses/cocktail?gclid=ABCD được hợp nhất với liên kết đến https://www.example.com/dresses/green/greendress.html.
  • Để đơn giản hóa việc theo dõi chỉ số cho một sản phẩm/chủ đề. Với nhiều URL khác nhau, việc hợp nhất chỉ số cho một nội dung cụ thể trở nên khó khăn hơn.
  • Để quản lý nội dung được phân phối. Nếu bạn phân phối nội dung để xuất bản trên các miền khác, bạn muốn hợp nhất xếp hạng trang cho URL ưa thích của bạn.
  • Để tránh dành thời gian thu thập dữ liệu các trang trùng lặp. Bạn muốn Googlebot khai thác tối đa trang web của mình, vậy thì Googlebot nên dành thời gian thu thập dữ liệu các trang mới (hoặc cập nhật) trên trang web thay vì thu thập dữ liệu các phiên bản dành cho máy tính để bàn và thiết bị di động của cùng một trang.

Trang chuẩn mà Google chọn cho tôi là gì?

Hãy sử dụng công cụ Kiểm tra URL để tìm hiểu xem Google chọn trang nào là trang chuẩn. Xin lưu ý rằng ngay cả khi bạn chỉ định rõ trang chuẩn, Google vẫn có thể chọn một trang khác làm trang chuẩn vì nhiều lý do khác nhau như hiệu suất hoặc nội dung.

Khắc phục sự cố

Nếu một URL chuẩn nằm trong một sản phẩm mà bạn không sở hữu, bạn sẽ không thấy lưu lượng truy cập cho trang trùng lặp của mình. Dưới đây là một số lý do phổ biến mà một trang chuẩn có thể nằm trong một sản phẩm riêng biệt:
  • Các biến thể ngôn ngữ được đánh dấu không chính xác: Nếu bạn có nhiều trang web phân phát nội dung giống nhau đã bản địa hóa cho người dùng trên khắp thế giới, hãy đảm bảo tuân thủ nguyên tắc của chúng tôi đối với các trang web đã bản địa hóa.
  • Thẻ chuẩn không chính xác: Một số hệ thống quản lý nội dung (CMS) hoặc plugin CMS có thể sử dụng kỹ thuật xác định phiên bản chuẩn không phù hợp để trỏ đến URL trên các trang web bên ngoài. Kiểm tra nội dung của bạn để xem đây có phải là nguyên nhân không. Nếu trang web của bạn đang chỉ định tùy chọn URL chuẩn không mong muốn, có thể là do sử dụng rel="canonical" hay lệnh chuyển hướng 301 không đúng cách, hãy khắc phục trực tiếp vấn đề đó.
  • Máy chủ bị định cấu hình sai: Một số lỗi cấu hình máy chủ không chính xác có thể dẫn đến lựa chọn nhầm URL trên miền khác. Ví dụ:
    • Một máy chủ có thể được định cấu hình không chính xác để trả về nội dung từ a.com khi phản hồi yêu cầu URL từ b.com
    • Hai máy chủ web không liên quan đến nhau có thể trả về các trang soft 404 giống hệt nhau mà Google không xác định được là trang lỗi.
  • Trang web bị tấn công bằng mã độc hại: Một số cuộc tấn công vào các trang web sẽ chèn mã trả về lệnh chuyển hướng 301 HTTP hoặc chèn yếu tố liên kết rel=”canonical” tên miền chéo vào HTML <head> hay tiêu đề HTTP, thường là trỏ đến một URL lưu trữ nội dung vi phạm hay độc hại. Trong các trường hợp này, thuật toán của chúng tôi có thể chọn URL vi phạm hay độc hại thay vì URL trên trang web bị xâm phạm.
  • Trang web sao chép: Trong rất ít trường hợp, thuật toán của chúng tôi có thể chọn một URL từ trang web bên ngoài đang lưu trữ nội dung của bạn mà không được bạn cho phép. Nếu tin rằng một trang web khác đang sao chép nội dung của bạn theo cách vi phạm luật bản quyền, bạn có thể liên hệ với nhà cung cấp dịch vụ lưu trữ của trang web đó để yêu cầu xóa nội dung. Ngoài ra, bạn có thể yêu cầu Google xóa trang vi phạm khỏi kết quả tìm kiếm của chúng tôi bằng cách gửi yêu cầu theo Đạo luật bản quyền kỹ thuật số thiên niên kỷ.

Chỉ định trang chuẩn

Có một vài cách khác nhau để chỉ định trang chuẩn trong một tập hợp các trang trùng lặp, tùy thuộc vào cách sử dụng của bạn:

Phương pháp Mô tả
Nguyên tắc chung Thực hiện theo các nguyên tắc này cho tất cả các phương pháp chuẩn hóa.
Thẻ <link> rel=canonical

Thêm thẻ <link> vào mã cho tất cả các trang trùng lặp và trỏ đến trang chuẩn.

Ưu điểm:

  • Có thể ánh xạ vô số các trang trùng lặp.

Nhược điểm:

  • Có thể làm tăng kích thước trang.
  • Việc duy trì sơ đồ ánh xạ trên các trang web lớn hoặc các trang mà URL thay đổi thường xuyên có thể phức tạp
  • Chỉ hoạt động với các trang HTML chứ không phải các tệp như PDF. Trong các trường hợp đó, bạn có thể sử dụng tiêu đề HTTP rel= canonical.
Tiêu đề HTTP rel=canonical

Gửi tiêu đề rel=canonical trong phản hồi trang của bạn.

Ưu điểm:

  • Không làm tăng kích thước trang.
  • Có thể ánh xạ vô số các trang trùng lặp.

Nhược điểm:

  • Việc duy trì sơ đồ ánh xạ trên các trang web lớn hoặc các trang mà URL thay đổi thường xuyên có thể phức tạp
Sơ đồ trang web

Chỉ định trang chuẩn của bạn trong sơ đồ trang web.

Ưu điểm:

  • Dễ dàng thực hiện và duy trì, đặc biệt là trên các trang web lớn.

Nhược điểm:

  • Googlebot vẫn phải xác định phiên bản trùng lặp cho bất kỳ trang chuẩn nào mà bạn khai báo trong sơ đồ trang web.
  • Tín hiệu kém hữu ích hơn cho Googlebot so với kỹ thuật ánh xạ rel=canonical.
Lệnh chuyển hướng 301 Sử dụng lệnh chuyển hướng 301 để cho Googlebot biết rằng URL chuyển hướng là phiên bản tốt hơn so với một URL nhất định. Chỉ sử dụng tính năng này khi ngừng sử dụng một trang trùng lặp.
Biến thể AMP Nếu một trong các biến thể của bạn là một trang AMP, bạn sẽ cần thực hiện theo các nguyên tắc AMP để chỉ định trang chuẩn và biến thể AMP.

 

Chúng tôi khuyến khích bạn sử dụng bất kỳ phương pháp nào trong số này, nhưng không phương pháp nào là bắt buộc. Nếu bạn không chỉ định URL chuẩn, chúng tôi sẽ xác định URL mà chúng tôi nghĩ là phiên bản tốt nhất của URL đó.

Nguyên tắc chung

Đối với tất cả các phương pháp chuẩn hóa, hãy thực hiện theo các nguyên tắc chung sau.

Nguyên tắc chung
  • Không sử dụng tệp robots.txt để chỉ định trang chuẩn.
  • Không sử dụng công cụ xóa URL để chỉ định trang chuẩn: công cụ này xóa tất cả các phiên bản của một URL khỏi kết quả tìm kiếm.
  • Không chỉ định các URL khác nhau làm phiên bản chuẩn cho cùng một trang bằng cách sử dụng một hay nhiều phương pháp chỉ định trang chuẩn khác nhau (ví dụ: không chỉ định một URL trong sơ đồ trang web và một URL khác cho cùng trang đó bằng cách sử dụng rel="canonical").
  • Không sử dụng thẻ ngăn lập chỉ mục để né tránh việc lựa chọn trang chuẩn. Lệnh này nhằm loại trừ trang khỏi chỉ mục chứ không phải để quản lý việc lựa chọn trang chuẩn. 
  • Chỉ định trang chuẩn khi dùng thẻ hreflang. Chỉ định trang chuẩn bằng cùng một ngôn ngữ, hoặc ngôn ngữ thay thế tốt nhất có thể nếu không tồn tại trang chuẩn cho ngôn ngữ đó.

  • Liên kết đến URL chuẩn chứ không phải là URL trùng lặp khi liên kết trong trang web của bạn. Việc duy trì liên kết với URL mà bạn chọn là trang chuẩn sẽ giúp Google biết được trang chuẩn ưa thích của bạn.

Ưu tiên chọn HTTPS thay vì HTTP làm URL chuẩn

Google ưu tiên chỉ định các trang HTTPS thay vì các trang HTTP tương đương làm phiên bản chuẩn, trừ khi có vấn đề hoặc tín hiệu xung đột, ví dụ:

  • Các trang HTTPS có chứng chỉ SSL không hợp lệ.
  • Các trang HTTPS chứa yếu tố phụ thuộc không an toàn (ngoài hình ảnh).
  • Các trang HTTPS chuyển hướng người dùng đến hay qua một trang HTTP.
  • Các trang HTTPS có liên kết rel="canonical" đến trang HTTP.

Mặc dù hệ thống của chúng tôi ưu tiên các trang HTTPS hơn trang HTTP theo mặc định, bạn có thể đảm bảo hành vi này bằng cách thực hiện bất kỳ hành động nào sau đây:

  • Thêm lệnh chuyển hướng từ trang HTTP đến trang HTTPS.
  • Thêm liên kết rel="canonical" từ trang HTTP đến trang HTTPS.
  • Triển khai HSTS.

Để ngăn Google đặt nhầm trang HTTP làm trang chuẩn, bạn nên tránh các phương pháp sau đây:

  • Chứng chỉ SSL không hợp lệ và lệnh chuyển hướng từ HTTPS đến HTTP khiến chúng tôi thường ưu tiên cho trang HTTP. Việc triển khai HSTS cũng không thể ghi đè tùy chọn thường trực này.
  • Bao gồm trang HTTP trong sơ đồ trang web hoặc mục nhập hreflang của bạn chứ không phải phiên bản HTTPS.
  • Triển khai chứng chỉ SSL/TLS của bạn cho host-variant (biến thể máy chủ) không chính xác: chẳng hạn như example.com phân phối chứng chỉ cho www.example.com.  Chứng chỉ này phải khớp với URL trang web hoàn chỉnh của bạn hoặc phải là chứng chỉ đại diện có thể dùng cho nhiều miền con trên một miền.

Chỉ dành cho người dùng nâng cao: Yêu cầu Google bỏ qua các thông số động

Hãy sử dụng chức năng Xử lý thông số để cho Google biết về bất kỳ thông số nào nên bỏ qua khi thu thập dữ liệu. Việc bỏ qua một số thông số nhất định có thể làm giảm nội dung trùng lặp trong chỉ mục của Google và khiến trang web của bạn dễ thu thập dữ liệu hơn. Ví dụ: nếu bạn chỉ định rằng thông số sessionid nên được bỏ qua, Googlebot sẽ xem hai URL dưới đây là các trang trùng lặp:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Phương pháp cụ thể

Chọn một trong các phương pháp sau để xác định URL chuẩn cho các URL trùng lặp hay các trang trùng lặp/tương tự.

Hãy đảm bảo tuân thủ các nguyên tắc chung ở trên cho tất cả các phương pháp.

Sử dụng thẻ liên kết rel="canonical"

Bạn có thể sử dụng thẻ <link> trong tiêu đề trang để cho biết khi một trang là phiên bản trùng lặp của trang khác.

Giả sử bạn muốn https://example.com/dresses/green-dresses là URL chuẩn, mặc dù nhiều URL khác có thể truy cập nội dung này. Hãy chỉ định URL này làm URL chuẩn theo các bước sau:

  1. Đánh dấu tất cả các trang trùng lặp bằng yếu tố liên kết rel="canonical". Thêm một phần tử <link> có thuộc tính rel="canonical" vào phần <head> của các trang trùng lặp và trỏ đến trang chuẩn, như ví dụ sau:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Nếu trang chuẩn có biến thể dành cho thiết bị di động thì hãy thêm đường dẫn liên kết rel="alternate" vào trang đó và trỏ đến phiên bản dành cho thiết bị di động của trang:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. Thêm bất kỳ hreflang hoặc lệnh chuyển hướng khác thích hợp với trang.

Sử dụng đường dẫn tuyệt đối thay vì đường dẫn tương đối khi dùng yếu tố liên kết rel="canonical".

Sử dụng cấu trúc này:  https://www.example.com/dresses/green/greendresss.html
Không dùng cấu trúc này: /dresses/green/greendress.html
Sử dụng tiêu đề HTTP rel="canonical"

Nếu có thể định cấu hình máy chủ của mình, bạn có thể sử dụng tiêu đề HTTP rel="canonical" (thay vì thẻ HTML) để chỉ ra URL chuẩn cho các tài liệu không phải HTML, chẳng hạn như tệp PDF.

Ví dụ: nếu cung cấp một tệp PDF thông qua nhiều URL, bạn có thể trả lại tiêu đề HTTP rel="canonical" như sau cho các URL trùng lặp để cho Googlebot biết URL chuẩn cho tệp PDF là gì:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Hiện Google chỉ hỗ trợ phương pháp này cho các kết quả tìm kiếm trên web.

Sử dụng đường dẫn tuyệt đối thay vì đường dẫn tương đối khi dùng yếu tố liên kết rel="canonical". Đó là:
Sử dụng cấu trúc này: http://www.example.com/downloads/white-paper.pdf
Không dùng cấu trúc này: /downloads/white-paper.pdf
Sử dụng sơ đồ trang web

Chọn một URL chuẩn cho mỗi trang của bạn và gửi chúng trong một sơ đồ trang web. Tất cả các trang được liệt kê trong một sơ đồ trang web đều được đề xuất là trang chuẩn. Googlebot sẽ quyết định trang nào (nếu có) là trang trùng lặp, dựa trên mức độ tương tự của nội dung.

Chúng tôi không đảm bảo rằng chúng tôi sẽ xem các URL trong sơ đồ trang web là URL chuẩn, nhưng đó là một cách đơn giản để xác định các trang chuẩn cho một trang web lớn và sơ đồ trang web là một cách hữu ích để cho Google biết về các trang mà bạn coi là quan trọng nhất trên trang web của mình.

Không bao gồm các trang không phải là trang chuẩn trong sơ đồ trang web. Nếu sử dụng sơ đồ trang web, hãy chỉ xác định các URL chuẩn trong sơ đồ trang web.

Sử dụng lệnh chuyển hướng 301 cho các URL đã ngừng sử dụng

Hãy sử dụng phương pháp này khi bạn muốn loại bỏ các trang trùng lặp hiện tại, nhưng cần đảm bảo rằng quá trình di chuyển xảy ra suôn sẻ trước khi bạn ngừng sử dụng các URL cũ.

Giả sử trang của bạn có thể truy cập bằng nhiều cách:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Chọn một trong các URL đó làm URL chuẩn và sử dụng lệnh chuyển hướng 301 để gửi lưu lượng truy cập từ các URL khác đến URL ưa thích của bạn. Lệnh chuyển hướng 301 phía máy chủ là cách tốt nhất để đảm bảo rằng người dùng và công cụ tìm kiếm được chuyển hướng đến đúng trang. Mã trạng thái 301 nghĩa là một trang đã được di chuyển vĩnh viễn tới vị trí mới.

Nếu bạn đang sử dụng một dịch vụ lưu trữ trang web, hãy tìm kiếm tài liệu hướng dẫn của họ về cách thiết lập lệnh chuyển hướng 301.

Thông tin này có hữu ích không?
Chúng tôi có thể cải thiện trang này bằng cách nào?