Chặn thu thập dữ liệu nội dung trùng lặp có tham số

Thời điểm và cách sử dụng công cụ Tham số URL

Tham số URL và nội dung trùng lặp

Nếu trang web của bạn sử dụng tham số URL cho các biến thể trang không đáng kể (ví dụ: color=redcolor=green) hoặc nếu trang web của bạn sử dụng các tham số mà về cơ bản có thể hiển thị nội dung giống nhau bằng các URL khác nhau (ví dụ: example.com/shirts?style=polo,long-sleeve và example.com/shirts?style=polo&style=long-sleeve), thì có thể Google đang thu thập dữ liệu trang web của bạn một cách không hiệu quả.

Dưới đây là một ví dụ về các URL dẫn đến nội dung về cơ bản là trùng lặp với nhau, chỉ khác nhau ở tham số:

URL Mô tả
https://example.com/products/women/dresses/green.html Trang tĩnh, không có tham số
https://example.com/products/women?category=dresses&color=green URL sử dụng tham số categorycolor để phân phối cùng một nội dung dưới dạng các trang không có tham số.
https://example.com/products/women/dresses/green.html?limit=20&sessionid=123 URL bao gồm các tham số để giới hạn số lượng kết quả và ID phiên cho người dùng để hiển thị cùng một nội dung.

Nếu có nhiều tham số URL như vậy trong trang web của mình, thì việc sử dụng công cụ Tham số URL để giảm tần suất thu thập dữ liệu các URL trùng lặp có thể có lợi cho bạn.

Quan trọng: Nếu trang web của bạn phân phối nội dung trùng lặp cho các URL khác nhau mà không sử dụng tham số, thì bạn nên xác định trang chính tắc thay vì chặn thu thập dữ liệu, như mô tả trong trang này.

Chặn thu thập dữ liệu các URL chứa tham số cụ thể

Bạn có thể ngăn Google thu thập dữ liệu các URL có chứa tham số cụ thể hoặc tham số có giá trị cụ thể để tránh thu thập dữ liệu các trang trùng lặp.

Yêu cầu

Bạn chỉ nên sử dụng công cụ Tham số URL nếu trang web của bạn đáp ứng TẤT CẢ các yêu cầu sau.

  • Trang web của bạn có hơn 1.000 trang, VÀ
  • Trong tệp nhật ký, bạn thấy một số lượng đáng kể các trang trùng lặp mà Googlebot đã lập chỉ mục, trong đó tất cả các trang trùng lặp chỉ khác nhau ở tham số URL (ví dụ: example.com?product=green_dressexample.com?type=dress&color=green).
Cảnh báo về việc sử dụng không đúng cách
 
Bạn chỉ nên sử dụng công cụ Tham số URL nếu trang web của bạn đáp ứng các yêu cầu ở trên và bạn là một SEO có kinh nghiệm. Việc sử dụng công cụ Tham số URL không đúng cách có thể khiến Google bỏ qua các trang quan trọng trên trang web của bạn và không đưa ra cảnh báo hoặc báo cáo về các trang bị bỏ qua. Điều này là vì nhiều người đã sử dụng công cụ sai cách hoặc trong các trường hợp không cần thiết. Nếu không chắc chắn liệu bạn có đang sử dụng công cụ này đúng cách hay không, thì bạn không nên sử dụng.

Cách sử dụng

Bạn có thể chỉ định hành vi của Google khi thu thập dữ liệu trang web của bạn bằng các tham số cụ thể. Hành vi chỉ định trong tham số áp dụng cho toàn bộ sản phẩm. Bạn sẽ không thể chỉ định rằng hành vi thu thập dữ liệu đối với một tham số nhất định chỉ áp dụng trên một URL hoặc phần cụ thể thuộc trang web của bạn.

Để sử dụng công cụ Tham số URL, hãy thực hiện theo các bước sau:

  1. Xác minh rằng trang web của bạn đáp ứng các yêu cầu nêu trên.
  2. Mở Công cụ tham số URL.
  3. Chỉnh sửa tham số hiện có hoặc nhấp vào Thêm tham số để tạo tham số mới. Xin lưu ý rằng công cụ này phân biệt chữ hoa và chữ thường, vì thế hãy nhập chính xác tham số xuất hiện trong URL.
  4. Chỉ định liệu tham số URL của bạn có ảnh hưởng đến nội dung trang hay không:
    • Không: Không ảnh hưởng tới nội dung trang: Tham số của bạn không ảnh hưởng đến cách trình bày nội dung trang. Loại tham số này có thể dùng để theo dõi lần truy cập và giới thiệu, nhưng không ảnh hưởng đến nội dung thực tế của trang. Ví dụ: sessionID hoặc userName. Nếu tìm thấy nhiều URL chỉ khác nhau ở giá trị tham số này, thì Google sẽ thu thập dữ liệu một trong các URL đó. Google sẽ cố gắng phát hiện các loại tham số này, nhưng nếu nhật ký của bạn cho thấy chúng tôi không xác định chính xác tham số tĩnh này thì bạn có thể chỉ định tham số tại đây.
    • Có: Thay đổi, sắp xếp lại hoặc thu hẹp nội dung trang: Tham số của bạn có thể làm thay đổi nội dung trang. Ví dụ: brandgender, country hoặc sortorder. Hãy chọn mục đích của tham số:
      • Sắp xếp (ví dụ: sort=price_ascending): Thay đổi thứ tự hiển thị nội dung.
      • Thu hẹp (ví dụ: t-shirt_size=XS): Lọc nội dung trên trang.
      • Chỉ định (ví dụ: store=women): Xác định loại chung của nội dung hiển thị trên một trang. Nếu giá trị này chỉ định một mục chính xác và đây là cách duy nhất để truy cập nội dung này, thì bạn nên chọn "Mọi URL" cho hành vi.
      • Dịch (ví dụ: lang=fr): Hiển thị phiên bản đã dịch của nội dung. Nếu sử dụng một tham số để hiển thị các ngôn ngữ khác nhau, thì có lẽ bạn nên chỉ dẫn Google thu thập dữ liệu các phiên bản đã dịch bằng hreflang để chỉ ra các biến thể ngôn ngữ của trang thay vì chặn nội dung bằng công cụ này.
      • Phân trang (ví dụ: page=2): Hiển thị một trang cụ thể của một danh sách dài gồm các bài viết.
         
      • Googlebot nên thu thập dữ liệu URL nào có tham số này? Chọn một tùy chọn để chỉ định hành vi của Google khi gặp phải URL có chứa tham số này:
        • Để Googlebot quyết định: Tùy chọn cài đặt này là tùy chọn mặc định đối với các tham số đã biết. Hãy chọn tùy chọn cài đặt này nếu bạn không chắc về hành vi của một tham số hoặc nếu hành vi tham số thay đổi với các phần khác nhau của trang web. Googlebot có thể phân tích trang web của bạn để quyết định cách tốt nhất để xử lý tham số.
        • Mọi URL: Yêu cầu Google không bao giờ chặn URL có tham số này. Các URL trong đó tham số này có giá trị khác biệt sẽ không chứa nội dung trùng lặp. Ví dụ: sau khi bạn triển khai loại tùy chọn cài đặt này cho các URL chứa tham số productid, Google tự động xem URL http://www.example.com/dresses/real.htm?productid=1202938 là khác biệt hoàn toàn với http://www.example.com/dresses/real.htm?productid=5853729 vì mỗi URL có giá trị tham số productid khác nhau.
        • Chỉ các URL có giá trị xác định: Yêu cầu Google chỉ thu thập dữ liệu các URL trong đó tham số URL của bạn được đặt thành một giá trị bạn đã xác định. Các URL có giá trị tham số khác sẽ không được thu thập dữ liệu. Điều này đặc biệt hữu ích nếu trang web của bạn sử dụng giá trị tham số để thay đổi thứ tự mà nội dung trùng lặp được hiển thị. Ví dụ: http://www.example.com/dresses/real.htm?sort=price_high chứa nội dung giống với http://www.example.com/dresses/real.htm?sort=price_low. Bạn có thể sử dụng tùy chọn cài đặt này để yêu cầu Google chỉ thu thập dữ liệu các URL trong đó sort=price_low để tránh thu thập dữ liệu nội dung trùng lặp.
        • Không URL nào: Yêu cầu Google không thu thập dữ liệu bất kỳ URL nào có chứa một tham số cụ thể. Google sẽ không thu thập dữ liệu bất kỳ URL nào chứa tham số bạn đã nhập. Ví dụ: bạn có thể yêu cầu Google không thu thập dữ liệu các URL có tham số như pricefrompriceto (chẳng hạn như http://www.examples.com/search?category=shoe&brand=nike&color=red&size=5&pricefrom=10&priceto=1000) để ngăn thu thập dữ liệu một cách không cần thiết nội dung trùng lặp có sẵn tại http://www.examples.com/search?category=shoe&brand=nike&color=red&size=5.
  5. Nếu trang web của bạn sử dụng nhiều tham số trong một URL, hãy xem cách quản lý URL có nhiều tham số.
  6. Xin lưu ý rằng các sản phẩm khác có thể kế thừa quy tắc của bạn (xem phần Kế thừa quy tắc tham số).

Kế thừa quy tắc tham số

Nếu bạn có các sản phẩm riêng cho http và https, hoặc các sản phẩm gốc và con riêng biệt (ví dụ: example.com và example.com/fr/, hoặc example.com và m.example.com), thì các sản phẩm này có thể kế thừa tùy chọn cài đặt tham số của bạn, theo các quy tắc sau:

  • http/https: Nếu chỉ một trong các sản phẩm http hoặc https của bạn có quy tắc, thì các quy tắc này sẽ áp dụng cho cả hai. Nếu cả hai sản phẩm http và https của bạn có quy tắc xác định riêng, thì chỉ các quy tắc riêng đó mới được áp dụng.
  • Gốc/con: Nếu một sản phẩm gốc (example.com) có các quy tắc tham số, thì mọi sản phẩm con (example.com/fr/) không có quy tắc tham số đều kế thừa các quy tắc đó; mọi sản phẩm con quy tắc tham số riêng chỉ sử dụng các quy tắc riêng đó. Xin lưu ý rằng tên miền phụ (m.example.com) được tính là sản phẩ con của miền gốc (example.com).

Quản lý URL có nhiều tham số

Một URL có thể chứa nhiều tham số. Bạn có thể chỉ định tùy chọn cài đặt thu thập dữ liệu riêng cho từng tham số. Nếu một URL chứa nhiều tham số được quản lý, Google sẽ tuân theo quy tắc sau đây khi quyết định có thu thập dữ liệu URL hay không:

Các tùy chọn cài đặt tham số có tính hạn chế cao sẽ ghi đè các tùy chọn cài đặt tham số có tính hạn chế thấp.

Ví dụ: bên dưới là ba tham số URL và tùy chọn cài đặt tương ứng về việc thu thập dữ liệu của Google:

Tham số Tùy chọn cài đặt về việc thu thập dữ liệu tham số
shopping-category Thu thập dữ liệu tất cả các URL có tham số này
sort-by Chỉ thu thập dữ liệu URL có giá trị = production-year
sort-order Chỉ thu thập dữ liệu URL có giá trị = asc

 

Ví dụ 1

http://www.example.com?shopping-category=shoes&sort-by=size&sort-order=asc.

Google sẽ không thu thập dữ liệu URL này vì tham số sort-by không được đặt thành production-year mặc dù URL chứa giá trị sort-order hợp lệ (asc)

Ví dụ 2

http://www.example.com?shopping-category=DVD-movies&sort-by=production-year&sort-order=asc.

Google có thể thu thập dữ liệu URL này vì giá trị sort-bysort-order phù hợp với các tùy chọn cài đặt được phép.

Ví dụ 3

http://www.example.com/shoes/33453

http://www.example.com?country=fr

Google có thể thu thập dữ liệu cả hai URL vì chúng không có bất kỳ tham số được gắn cờ nào.

Bài viết này có hữu ích không?
Chúng tôi có thể cải thiện trang này bằng cách nào?