Hợp nhất các URL trùng lặp

Xác định trang chuẩn cho các trang tương tự hoặc trùng lặp

Tóm tắt

Nếu bạn có một trang có thể truy cập qua nhiều URL hoặc các trang khác nhau có nội dung tương tự (ví dụ: trang có cả phiên bản dành cho thiết bị di động và máy tính), thì Google sẽ xem các trang này là phiên bản trùng lặp của cùng một trang. Google sẽ chọn một URL làm phiên bản chuẩn và thu thập dữ liệu trang đó. Google sẽ xem tất cả URL khác là URL trùng lặp và thu thập dữ liệu các trang này ít hơn. 

Nếu bạn không cho Google biết rõ về URL chuẩn, Google sẽ chọn URL chuẩn thay cho bạn hoặc có thể xem các trang này có tầm quan trọng như nhau. Điều này có thể dẫn đến hành vi không mong muốn như được giải thích trong phần Tại sao tôi nên chọn URL chuẩn? bên dưới.

Chi tiết khác
Phần bên dưới có thể cung cấp nhiều thông tin về chuẩn hóa hơn mức cần thiết, vì vậy bạn có thể bỏ qua. Tuy nhiên, chúng tôi vẫn sẽ cung cấp thông tin này phòng khi bạn muốn biết.
Khi lập chỉ mục một trang web, Googlebot sẽ cố gắng xác định các chủ đề được đề cập trong mỗi trang. Nếu tìm thấy nhiều trang trong cùng một trang web có cùng nội dung, Googlebot sẽ chọn trang mà công cụ này nghĩ là hoàn chỉnh và hữu ích nhất và đánh dấu trang đó là trang chuẩn. Trang chuẩn sẽ được thu thập dữ liệu thường xuyên nhất. Quy trình này được thực hiện ít hơn với các trang trùng lặp để tiết kiệm ngân sách thu thập dữ liệu trên trang web của bạn. Vì vậy, nếu bạn không cho Googlebot biết trang nào là trang chuẩn và bạn quyết định rằng một trang khác mới là trang chuẩn, bạn có thể đang bỏ công sức cập nhật một trang mà Googlebot sẽ không lập chỉ mục thường xuyên hoặc hiển thị trong kết quả tìm kiếm.
Google sử dụng các trang chuẩn trên trang web của bạn làm tiêu chuẩn vàng về nội dung trang web khi đánh giá nội dung và chất lượng. Kết quả trên Google Tìm kiếm thường trỏ đến trang chuẩn, trừ khi một trong các trang trùng lặp rõ ràng phù hợp hơn với truy vấn của người dùng. Ví dụ: kết quả tìm kiếm có thể sẽ trỏ đến trang dành cho thiết bị di động nếu người dùng đang sử dụng thiết bị di động, ngay cả khi trang trên máy tính để bàn được đánh dấu là trang chuẩn.
Google chọn trang chuẩn dựa trên một số yếu tố (hoặc tín hiệu), chẳng hạn như việc trang được phân phối qua http hay https; miền ưa thích do người dùng khai báo; chất lượng trang; sự hiện diện của URL trong sơ đồ trang web; và bất kỳ nhãn "rel=canonical" nào. Bạn không thể buộc Google chọn một trang chuẩn nhất định, nhưng bạn có thể gây ảnh hưởng đến lựa chọn bằng cách sử dụng một hoặc nhiều kỹ thuật được hiển thị ở đây.

 

Tại sao tôi có các trang tương tự/trùng lặp?

Có nhiều lý do xác đáng cho việc trang web của bạn có thể có nhiều URL khác nhau trỏ đến cùng một trang hoặc có các trang trùng lặp hoặc rất giống nhau tại các URL khác nhau. Dưới đây là các lý do phổ biến nhất:

  • Để hỗ trợ nhiều loại thiết bị:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
    
  • Để bật URL động cho thông số tìm kiếm, ID phiên hoạt động, v.v.:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Hệ thống blog của bạn tự động lưu nhiều URL khi bạn đặt cùng một bài đăng dưới nhiều mục.
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Nếu máy chủ của bạn được định cấu hình để phân phối cùng một nội dung cho biến thể www/không phải www hay http/https:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Nếu nội dung bạn cung cấp trên blog đó để phân phối đến các trang web khác được sao chép một phần hoặc toàn bộ trên các miền đó:
    https://news.example.com/green-dresses-for-every-day-155672.html (bài đăng được phân phối) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (bài đăng gốc)

Tại sao tôi nên chọn URL chuẩn?

Có một số lý do tại sao bạn nên chọn trang chuẩn rõ ràng trong một tập hợp các trang trùng lặp/tương tự:

  • Để chỉ định URL mà bạn muốn mọi người nhìn thấy trong kết quả tìm kiếm. Bạn muốn mọi người truy cập trang sản phẩm váy màu xanh lá của mình thông qua https://www.example.com/dresses/green/greendress.html chứ không phải https://example.com/dresses/cocktail?gclid=ABCD.
  • Để hợp nhất tín hiệu liên kết cho các trang tương tự hoặc trùng lặp. Điều này giúp công cụ tìm kiếm hợp nhất thông tin có được cho từng URL riêng lẻ (chẳng hạn như liên kết đến các URL này) thành một URL duy nhất ưa thích. Điều này nghĩa là liên kết từ các trang web khác đến http://example.com/dresses/cocktail?gclid=ABCD được hợp nhất với liên kết đến https://www.example.com/dresses/green/greendress.html.
  • Để đơn giản hóa việc theo dõi chỉ số cho một sản phẩm/chủ đề. Với nhiều URL khác nhau, việc hợp nhất chỉ số cho một nội dung cụ thể trở nên khó khăn hơn.
  • Để quản lý nội dung được phân phối. Nếu bạn phân phối nội dung để xuất bản trên các miền khác, bạn muốn hợp nhất xếp hạng trang cho URL ưa thích của bạn.
  • Để tránh dành thời gian thu thập dữ liệu các trang trùng lặp. Bạn muốn Googlebot khai thác tối đa trang web của mình, vậy thì Googlebot nên dành thời gian thu thập dữ liệu các trang mới (hoặc cập nhật) trên trang web thay vì thu thập dữ liệu các phiên bản dành cho máy tính để bàn và thiết bị di động của cùng một trang.

Google sẽ xem URL nào là phiên bản chuẩn (hoặc trùng lặp)?

Hãy sử dụng công cụ Kiểm tra URL để tìm hiểu xem Google chọn trang nào là trang chuẩn. Xin lưu ý rằng ngay cả khi bạn chỉ định rõ trang chuẩn, Google vẫn có thể chọn một trang khác làm trang chuẩn vì nhiều lý do khác nhau như hiệu suất hoặc nội dung.

Chỉ định trang chuẩn

Có một vài cách khác nhau để chỉ định trang chuẩn trong một tập hợp các trang trùng lặp, tùy thuộc vào cách sử dụng của bạn:

Phương pháp Mô tả
Nguyên tắc chung Thực hiện theo các nguyên tắc này cho tất cả các phương pháp chuẩn hóa.
Chỉ định miền ưa thích

Sử dụng Search Console để chỉ định các URL trên một miền làm URL chuẩn so với các URL tương ứng trên một miền khác. Ví dụ: chỉ định example.com thay vì www.example.com. Chỉ sử dụng phương pháp này khi bạn có hai trang tương tự chỉ khác nhau ở miền phụ. Không sử dụng phương pháp này cho các trang tương ứng http/https.

Ưu điểm:

  • Rất dễ triển khai, quản lý và thay đổi
  • Sử dụng phương pháp này nếu bạn có các trang web giống nhau trên các miền khác nhau.

Nhược điểm:

  • Chỉ hoạt động ở miền chi tiết, và các trang phải có các đường dẫn và tên giống nhau để được xem là trang trùng lặp.
  • Chỉ cho phép ánh xạ từ trang đến trang đối với các trang có đường dẫn giống nhau.
Thẻ <link> rel=canonical

Thêm thẻ <link> vào mã cho tất cả các trang trùng lặp và trỏ đến trang chuẩn.

Ưu điểm:

  • Có thể ánh xạ vô số các trang trùng lặp.

Nhược điểm:

  • Có thể làm tăng kích thước trang.
  • Việc duy trì sơ đồ ánh xạ trên các trang web lớn hoặc các trang mà URL thay đổi thường xuyên có thể phức tạp
  • Chỉ hoạt động với các trang HTML chứ không phải các tệp như PDF. Trong các trường hợp đó, bạn có thể sử dụng tiêu đề HTTP rel= canonical.
Tiêu đề HTTP rel=canonical

Gửi tiêu đề rel=canonical trong phản hồi trang của bạn.

Ưu điểm:

  • Không làm tăng kích thước trang.
  • Có thể ánh xạ vô số các trang trùng lặp.

Nhược điểm:

  • Việc duy trì sơ đồ ánh xạ trên các trang web lớn hoặc các trang mà URL thay đổi thường xuyên có thể phức tạp
Sơ đồ trang web

Chỉ định trang chuẩn của bạn trong sơ đồ trang web.

Ưu điểm:

  • Dễ dàng thực hiện và duy trì, đặc biệt là trên các trang web lớn.

Nhược điểm:

  • Googlebot vẫn phải xác định phiên bản trùng lặp cho bất kỳ trang chuẩn nào mà bạn khai báo trong sơ đồ trang web.
  • Tín hiệu kém hữu ích hơn cho Googlebot so với kỹ thuật ánh xạ rel=canonical.
Chuyển hướng 301 Sử dụng chuyển hướng 301 để cho Googlebot biết rằng URL chuyển hướng là phiên bản tốt hơn so với một URL nhất định. Chỉ sử dụng tính năng này khi ngừng sử dụng một trang trùng lặp.
Biến thể AMP Nếu một trong các biến thể của bạn là một trang AMP, bạn sẽ cần thực hiện theo các nguyên tắc AMP để chỉ định trang chuẩn và biến thể AMP.

 

Mặc dù chúng tôi khuyến khích bạn sử dụng bất kỳ phương pháp nào trong số này, không phương pháp nào là bắt buộc. Nếu bạn không chỉ định URL chuẩn, chúng tôi sẽ xác định URL mà chúng tôi nghĩ là phiên bản tốt nhất của URL đó.

Nguyên tắc chung

Đối với tất cả các phương pháp chuẩn hóa, hãy thực hiện theo các nguyên tắc chung sau.

Nguyên tắc chung
  • Không sử dụng tệp robots.txt cho mục đích chỉ định trang chuẩn.
  • Không sử dụng công cụ xóa URL cho việc chỉ định trang chuẩn: công cụ này xóa tất cả các phiên bản của một URL khỏi kết quả tìm kiếm.
  • Không chỉ định các URL khác nhau làm phiên bản chuẩn cho cùng một trang bằng cách sử dụng một hay nhiều phương pháp chỉ định trang chuẩn khác nhau (ví dụ: không chỉ định một URL trong sơ đồ trang web và một URL khác cho cùng trang đó bằng cách sử dụng rel="canonical").
  • Không sử dụng noindex như một phương tiện để tránh việc lựa chọn trang chuẩn. Lệnh này nhằm loại trừ trang khỏi chỉ mục chứ không phải để quản lý việc lựa chọn trang chuẩn. 
  • Chỉ định trang chuẩn khi sử dụng thẻ hreflang. Chỉ định trang chuẩn bằng cùng một ngôn ngữ, hoặc ngôn ngữ thay thế tốt nhất có thể nếu không tồn tại trang chuẩn cho ngôn ngữ đó.

Ưu tiên HTTPS cho liên kết chuẩn hơn HTTP

Google ưu tiên các trang HTTPS làm phiên bản chuẩn hơn trang HTTP tương đương, trừ khi có vấn đề hoặc tín hiệu xung đột chẳng hạn như sau:

  • Các trang HTTPS có chứng chỉ SSL không hợp lệ.
  • Các trang HTTPS chứa yếu tố phụ thuộc không an toàn (ngoài hình ảnh).
  • Các trang HTTPS chuyển hướng người dùng đến hay qua một trang HTTP.
  • Các trang HTTPS có liên kết rel="canonical" đến trang HTTP.

Mặc dù hệ thống của chúng tôi ưu tiên các trang HTTPS hơn trang HTTP theo mặc định, bạn có thể đảm bảo hành vi này bằng cách thực hiện bất kỳ hành động nào sau đây:

  • Thêm chuyển hướng từ trang HTTP đến trang HTTPS.
  • Thêm liên kết rel="canonical" từ trang HTTP đến trang HTTPS.
  • Triển khai HSTS.

Để ngăn Google đặt nhầm trang HTTP làm trang chuẩn, bạn nên tránh các phương pháp sau đây:

  • Chứng chỉ SSL không hợp lệ và chuyển hướng từ HTTPS đến HTTP khiến chúng tôi thường ưu tiên cho trang HTTP. Việc triển khai HSTS cũng không thể ghi đè tùy chọn thường trực này.
  • Bao gồm trang HTTP trong sơ đồ trang web hoặc mục nhập hreflang của bạn chứ không phải phiên bản HTTPS.
  • Triển khai chứng chỉ SSL/TLS của bạn cho host-variant (biến thể máy chủ) không chính xác: chẳng hạn như example.com phân phối chứng chỉ cho www.example.com.  Chứng chỉ này phải khớp với URL trang web hoàn chỉnh của bạn hoặc phải là chứng chỉ đại diện có thể dùng cho nhiều miền phụ trên một miền.

Yêu cầu Google bỏ qua các thông số động

Sử dụng Xử lý thông số để cho Google biết về bất kỳ thông số nào nên bỏ qua khi thu thập dữ liệu. Việc bỏ qua một số thông số nhất định có thể làm giảm nội dung trùng lặp trong chỉ mục của Google và khiến trang web của bạn dễ thu thập dữ liệu hơn. Ví dụ: nếu bạn chỉ định rằng thông số sessionid nên được bỏ qua, Googlebot sẽ xem hai URL dưới đây là các trang trùng lặp:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Phương pháp cụ thể

Chọn một trong các phương pháp sau để xác định URL chuẩn cho các URL trùng lặp hay các trang trùng lặp/tương tự.

Hãy đảm bảo tuân thủ các nguyên tắc chung ở trên cho tất cả các phương pháp.

Đặt miền ưa thích

Sử dụng Search Console để cho Google biết phiên bản URL nào của trang web bạn muốn sử dụng làm URL chuẩn cho miền của mình:

  • https://www.example.com
  • https://example.com

Nếu bạn đặt miền ưa thích của mình là https://example.com, Google sẽ xem các URL hoặc trang tương tự trên www.example.com là phiên bản trùng lặp của các trang trên example.com.

Ðọc Đặt miền ưa thích của bạn để biết chi tiết.

Sử dụng thẻ liên kết rel="canonical"

Bạn có thể sử dụng thẻ <link> trong tiêu đề trang để cho biết khi một trang là phiên bản trùng lặp của trang khác.

Giả sử bạn muốn https://example.com/dresses/green-dresses là URL chuẩn, mặc dù nhiều URL khác có thể truy cập nội dung này. Hãy chỉ định URL này là URL chuẩn bằng các bước sau:

  1. Đánh dấu tất cả các trang trùng lặp bằng phần tử liên kết rel="canonical". Thêm một phần tử <link> có thuộc tính rel="canonical" vào phần <head> của các trang trùng lặp và trỏ đến trang chuẩn, như ví dụ sau:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Nếu trang chuẩn có biến thể dành cho thiết bị di động, hãy thêm liên kết rel="alternate" vào trang đó và trỏ đến phiên bản dành cho thiết bị di động của trang:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">

  3. Thêm bất kỳ hreflang hoặc chuyển hướng nào khác thích hợp cho trang.

Sử dụng đường dẫn tuyệt đối chứ không phải đường dẫn tương đối bằng phần tử liên kết rel="canonical".

Sử dụng cấu trúc này:  https://www.example.com/dresses/green/greendresss.html
Không phải cấu trúc này: /dresses/green/greendress.html).
Sử dụng tiêu đề HTTP rel="canonical"

Nếu có thể định cấu hình máy chủ của mình, bạn có thể sử dụng tiêu đề HTTP rel="canonical" (thay vì các thẻ HTML) để chỉ ra URL chuẩn cho các tài liệu không phải HTML, chẳng hạn như tệp PDF.

Ví dụ: nếu cung cấp một tệp PDF thông qua nhiều URL, bạn có thể trả lại tiêu đề HTTP rel="canonical" như sau cho các URL trùng lặp để cho Googlebot biết URL chuẩn cho tệp PDF là gì:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Hiện Google chỉ hỗ trợ phương pháp này cho các kết quả tìm kiếm trên web.

Sử dụng đường dẫn tuyệt đối chứ không phải đường dẫn tương đối bằng phần tử liên kết rel="canonical". Đó là:
Sử dụng cấu trúc này: http://www.example.com/downloads/white-paper.pdf
Không phải cấu trúc này: /downloads/white-paper.pdf
Sử dụng sơ đồ trang web

Chọn một URL chuẩn cho mỗi trang của bạn và gửi chúng trong một sơ đồ trang web. Tất cả các trang được liệt kê trong một sơ đồ trang web đều được đề xuất là trang chuẩn. Dooglebot sẽ quyết định trang nào (nếu có) là trang trùng lặp, dựa trên mức độ tương tự của nội dung.

Chúng tôi không đảm bảo rằng chúng tôi sẽ xem các URL trong sơ đồ trang web là URL chuẩn, nhưng đó là một cách đơn giản để xác định các trang chuẩn cho một trang web lớn và sơ đồ trang web là một cách hữu ích để cho Google biết về các trang mà bạn coi là quan trọng nhất trên trang web của mình.

Không bao gồm các trang không phải là trang chuẩn trong sơ đồ trang web. Nếu sử dụng sơ đồ trang web, hãy chỉ xác định các URL chuẩn trong sơ đồ trang web.

Sử dụng chuyển hướng 301 cho các URL đã ngừng sử dụng

Hãy sử dụng phương pháp này khi bạn muốn loại bỏ các trang trùng lặp hiện tại, nhưng cần đảm bảo rằng quá trình di chuyển xảy ra suôn sẻ trước khi bạn ngừng sử dụng các URL cũ.

Giả sử trang của bạn có thể truy cập bằng nhiều cách:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Chọn một trong các URL đó làm URL chuẩn và sử dụng chuyển hướng 301 để gửi lưu lượng truy cập từ các URL khác đến URL ưa thích của bạn. Chuyển hướng 301 phía máy chủ là cách tốt nhất để đảm bảo rằng người dùng và công cụ tìm kiếm được chuyển hướng đến đúng trang. Mã trạng thái 301 nghĩa là một trang đã được di chuyển vĩnh viễn tới vị trí mới.

Nếu bạn đang sử dụng một dịch vụ lưu trữ trang web, hãy tìm kiếm tài liệu hướng dẫn của họ về cách thiết lập chuyển hướng 301.

Bài viết này có hữu ích không?
Chúng tôi có thể cải thiện trang này bằng cách nào?