Tìm kiếm
Xóa tìm kiếm
Đóng tìm kiếm
Ứng dụng Google
Menu chính

Block URLs with robots.txt

Tìm hiểu về tệp robots.txt

Tệp robots.txt là một tệp ở gốc trang web của bạn cho biết những phần thuộc trang web bạn không muốn cấp quyền truy cập cho trình thu thập dữ liệu của công cụ tìm kiếm. Tệp sử dụng Chuẩn loại trừ Robot, là một giao thức với một tập nhỏ các lệnh có thể được sử dụng để chỉ định quyền truy cập vào trang web của bạn theo phần và theo loại cụ thể của trình thu thập dữ liệu web (chẳng hạn như trình thu thập dữ liệu trên thiết bị di động so với trên máy tính để bàn).

robots.txt được sử dụng vì mục đích gì?

Tệp không phải hình ảnh

Đối với các tệp không phải hình ảnh (chẳng hạn như trang web) robots.txt chỉ nên được sử dụng để kiểm soát lưu lượng thu thập dữ liệu, thường là vì bạn không muốn máy chủ của bạn bị quá tải bởi trình thu thập dữ liệu của Google hoặc không muốn lãng phí ngân sách thu thập dữ liệu vào việc thu thập dữ liệu những trang không quan trọng hay giống nhau trên trang web của bạn. Bạn không nên sử dụng robots.txt như một phương tiện để ẩn các trang web của bạn khỏi kết quả tìm kiếm của Google. Điều này là vì các trang khác có thể trỏ đến trang của bạn, và trang của bạn có thể được lập chỉ mục theo cách đó để tránh tệp robots.txt. Nếu bạn muốn chặn trang của bạn khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc lệnh hoặc thẻ không lập chỉ mục.

Tệp hình ảnh

robots.txt không chặn các tệp hình ảnh xuất hiện trong kết quả tìm kiếm của Google. (Tuy nhiên nó không chặn các trang hoặc người dùng khác liên kết đến hình ảnh của bạn.)

Tệp tài nguyên

Bạn có thể sử dụng robots.txt để chặn các tệp tài nguyên chẳng hạn như hình ảnh không quan trọng, tập lệnh hoặc các tệp định kiểu, nếu bạn nghĩ rằng các trang được tải mà không có các tài nguyên này sẽ không bị ảnh hưởng đáng kể bởi tổn thất này. Tuy nhiên, nếu việc thiếu các tài nguyên này làm cho trình thu thập dữ liệu của Google khó hiểu được trang của bạn hơn, bạn không nên chặn chúng, nếu không Google sẽ không thực hiện tốt trong việc phân tích những trang phụ thuộc vào các tài nguyên này của bạn.

Hiểu được những hạn chế của robots.txt

Trước khi bạn xây dựng robots.txt của mình, bạn nên biết những rủi ro của phương pháp chặn URL này. Đôi khi, bạn có thể muốn xem xét các cơ chế khác để đảm bảo URL của bạn không thể tìm thấy trên web.

  • Hướng dẫn trong robots.txt chỉ là lệnh

    Các hướng dẫn trong tệp robots.txt không thể ép buộc hành vi của trình thu thập dữ liệu trên trang web của bạn; thay vào đó, những hướng dẫn này hoạt động như lệnh đối với trình thu thập dữ liệu truy cập vào trang web của bạn. Mặc dù Googlebot và các trình thu thập dữ liệu web có uy tín khác tuân thủ hướng dẫn trong tệp robots.txt, các trình thu thập dữ liệu khác có thể không. Vì vậy, nếu bạn muốn bảo vệ thông tin an toàn khỏi trình thu thập dữ liệu web, tốt hơn bạn nên sử dụng các phương pháp chặn khác, chẳng hạn như bảo vệ các tệp riêng tư bằng mật khẩu trên máy chủ của bạn.
  • Trình thu thập khác nhau phân tích cú pháp khác nhau

    Mặc dù trình thu thập dữ liệu web có uy tín sẽ thực hiện theo lệnh trong tệp robots.txt, mỗi trình thu thập có thể phân tích lệnh theo cách khác nhau. Bạn nên biết cú pháp thích hợp để xử lý các trình thu thập dữ liệu web khác nhau vì một số trình thu thập có thể không hiểu được hướng dẫn nhất định.
  • robots.txt của bạn không thể chặn các trang web khác tham chiếu tới URL của bạn

    Mặc dù Google sẽ không thu thập hoặc lập chỉ mục nội dung bị chặn bởi robots.txt, chúng tôi vẫn có thể tìm thấy và lập chỉ mục một URL không được phép từ những nơi khác trên web. Kết quả là địa chỉ URL và có thể các thông tin công khai khác như văn bản liên kết trong các liên kết đến trang web vẫn có thể xuất hiện trong kết quả tìm kiếm của Google. Bạn có thể chặn URL của mình xuất hiện trong kết quả tìm kiếm của Google hoàn toàn bằng cách sử dụng phương pháp URL chặn khác, chẳng hạn như bảo vệ bằng mật khẩu các tệp trên máy chủ của bạn hoặc sử dụng thẻ meta hoặc tiêu đề phản hồi không lập chỉ mục.
Lưu ý: Kết hợp nhiều lệnh thu thập dữ liệu và lập chỉ mục chỉ có thể khiến một số lệnh chống lại các lệnh khác. Tìm hiểu cách định cấu hình chính xác các chỉ thị bằng cách đọc phần Kết hợp thu thập dữ liệu với lệnh lập chỉ mục / phân phối của tài liệu Nhà phát triển của Google.
Bài viết này có hữu ích không?
Chúng tôi có thể cải thiện trang này bằng cách nào?