​Báo cáo robots.txt

Kiểm tra xem Google có xử lý được tệp robots.txt của bạn không

Báo cáo robots.txt cho biết Google tìm thấy những tệp robots.txt nào đối với 20 máy chủ lưu trữ hàng đầu trên trang web của bạn, lần gần nhất các tệp robots.txt này được thu thập dữ liệu, cũng như mọi cảnh báo hoặc lỗi gặp phải. Báo cáo này cũng cho phép bạn yêu cầu thu thập lại dữ liệu của tệp robots.txt trong trường hợp khẩn cấp.

Tệp robots.txt được dùng để ngăn không cho công cụ tìm kiếm thu thập dữ liệu trang web của bạn. Hãy sử dụng lệnh noindex nếu bạn muốn ngăn nội dung xuất hiện trong kết quả tìm kiếm.

Báo cáo này chỉ dùng được cho các tài sản ở cấp miền. Có nghĩa là:

  • Tài sản miền (chẳng hạn như example.com hoặc m.example.com), hoặc
  • Tài sản có tiền tố URL không có đường dẫn, chẳng hạn như https://example.com/, chứ không phải https://example.com/path/.

Mở báo cáo robots.txt

 

Xem tệp robots.txt và trạng thái thu thập dữ liệu

Trong một Tài sản miền, báo cáo này bao gồm các tệp robots.txt của 20 máy chủ lưu trữ hàng đầu trong tài sản đó.

Đối với mỗi tệp robots.txt mà Search Console kiểm tra, bạn có thể xem những thông tin sau:

  • Đường dẫn tệp – URL đầy đủ mà Google từng kiểm tra xem có tệp robots.txt hay không. URL sẽ chỉ xuất hiện trong báo cáo nếu có trạng thái là Đã tìm nạp hoặc Chưa tìm nạp được vào thời điểm bất kỳ trong 30 ngày qua. Xem Vị trí của tệp robots.txt.
  • Trạng thái tìm nạp – Trạng thái của yêu cầu tìm nạp gần đây nhất đối với tệp này. Những giá trị sau đây có thể xuất hiện:
    • Chưa tìm nạp – Không tìm thấy (404): Đã xảy ra lỗi 404 (tệp không tồn tại) khi yêu cầu tệp này. Nếu bạn đã đưa tệp robots.txt vào URL được liệt kê nhưng gặp lỗi này, hãy thử kiểm tra URL đó để xem có vấn đề nào về khả năng truy cập hay không. Nếu một tệp có trạng thái Không tìm thấy (404) trong 30 ngày, tệp đó sẽ không còn xuất hiện trong báo cáo (mặc dù Google vẫn sẽ tiếp tục kiểm tra tệp đó nhưng không báo cáo). Việc không có lỗi robots.txt là bình thường, và có nghĩa là Google có thể thu thập dữ liệu tất cả URL trên trang web của bạn, nhưng hãy đọc cách Google xử lý khi xảy ra lỗi robots.txt để biết đầy đủ thông tin.
    • Chưa tìm nạp – Bất cứ lý do nào khác: Đã xảy ra một số vấn đề khác khi yêu cầu tệp này. Xem Danh sách vấn đề khi lập chỉ mục.
    • Đã tìm nạp: Lần thu thập dữ liệu gần đây nhất đã thành công và trả về một tệp robots.txt. Những vấn đề phát hiện được trong khi phân tích cú pháp tệp sẽ xuất hiện trong cột Vấn đề. Google sẽ bỏ qua những dòng có vấn đề và sử dụng những dòng có thể phân tích cú pháp.
  • Thời gian kiểm tra – Lần gần nhất Google tiến hành thu thập dữ liệu URL này, tính theo giờ địa phương.
  • Kích thước – Kích thước của tệp được tìm nạp, tính bằng byte. Nếu lần tìm nạp gần đây nhất không thành công, thì giá trị này sẽ trống.
  • Vấn đề – Bảng này cho biết số lượng vấn đề về phân tích cú pháp trong nội dung tệp tại thời điểm tìm nạp gần đây nhất. Các lỗi sẽ khiến không áp dụng được quy tắc. Các cảnh báo không ngăn việc áp dụng quy tắc. Hãy đọc về cách Google xử lý khi xảy ra lỗi liên quan đến tệp robots.txt. Để khắc phục vấn đề về phân tích cú pháp, hãy dùng trình xác thực tệp robots.txt.

Xem phiên bản được tìm nạp gần đây nhất

Bạn có thể xem phiên bản tệp robots.txt được tìm nạp gần đây nhất bằng cách nhấp vào tệp đó trong danh sách tệp trong báo cáo. Nếu tệp robots.txt đó có lỗi hoặc cảnh báo, các lỗi hoặc cảnh báo đó sẽ được đánh dấu trong phần nội dung tệp hiện ra. Bạn có thể di chuyển qua lại giữa các lỗi và cảnh báo bằng phím mũi tên.

Xem các phiên bản đã tìm nạp trước đây

Để xem các yêu cầu tìm nạp đối với một tệp robots.txt nào đó trong 30 ngày qua, hãy nhấp vào tệp đó trong danh sách tệp trong báo cáo, rồi nhấp vào Phiên bản. Nhấp vào phiên bản để xem nội dung tệp ở phiên bản đó. Yêu cầu chỉ được đưa vào nhật ký nếu tệp đã truy xuất hoặc kết quả tìm nạp khác với yêu cầu tìm nạp tệp trước đó.

Nếu xảy ra lỗi tìm nạp trong lần tìm nạp gần đây nhất, thì Google sẽ sử dụng phiên bản được tìm nạp thành công gần đây nhất mà không gặp lỗi lên đến 30 ngày.

Yêu cầu thu thập lại dữ liệu

Bạn có thể yêu cầu thu thập lại dữ liệu trong tệp robots.txt khi sửa lỗi hoặc thực hiện một thay đổi quan trọng.

Khi nào nên yêu cầu thu thập lại dữ liệu

Thường thì bạn không cần yêu cầu thu thập lại dữ liệu đối với tệp robots.txt, vì Google thường xuyên thu thập lại dữ liệu trong tệp robots.txt của bạn. Tuy nhiên, bạn có thể yêu cầu thu thập lại dữ liệu tệp robots.txt trong các trường hợp sau:

  • Bạn đã thay đổi quy tắc trong tệp robots.txt để bỏ chặn một số URL quan trọng và muốn nhanh chóng thông báo cho Google (lưu ý rằng việc này không đảm bảo Google sẽ ngay lập tức thu thập lại dữ liệu các URL đã được bỏ chặn).
  • Bạn đã khắc phục một lỗi tìm nạp hoặc lỗi nghiêm trọng khác.

Cách yêu cầu thu thập lại dữ liệu

Để yêu cầu thu thập lại dữ liệu, hãy chọn biểu tượng chế độ cài đặt khác bên cạnh một tệp trong danh sách tệp robots, rồi nhấp vào Yêu cầu thu thập lại dữ liệu.

Trang web trên dịch vụ lưu trữ trang web

Nếu trang web của bạn được lưu trữ trên một dịch vụ lưu trữ trang web, thì có thể bạn không dễ dàng chỉnh sửa được tệp robots.txt của mình. Trong trường hợp đó, hãy xem tài liệu của máy chủ lưu trữ trang web về cách chặn Google thu thập dữ liệu hoặc lập chỉ mục một số trang cụ thể. (Xin lưu ý rằng hầu hết người dùng quan tâm về việc ngăn tệp xuất hiện trên Google Tìm kiếm, chứ không phải về việc Google thu thập dữ liệu. Nếu đây là điều mà bạn quan tâm, hãy tìm kiếm trong dịch vụ lưu trữ mà bạn đang sử dụng để biết thông tin về cách chặn trang khỏi công cụ tìm kiếm.)

Điều gì xảy ra khi Google không thể tìm nạp hoặc đọc tệp robots.txt của bạn

Nếu không tìm thấy tệp robots.txt cho một miền hoặc miền con nào đó, thì Google sẽ giả định rằng có thể thu thập dữ liệu trên mọi URL trong máy chủ lưu trữ đó.

Nếu tìm thấy tệp robots.txt nhưng không tìm nạp được tệp đó, thì Google sẽ xử lý như sau:

  1. Trong 12 giờ đầu tiên, Google sẽ ngừng thu thập dữ liệu trên trang web nhưng vẫn tìm cách tìm nạp tệp robots.txt.
  2. Nếu không thể tìm nạp phiên bản mới, thì trong vòng 30 ngày tới, Google sẽ sử dụng phiên bản có thể tìm nạp được gần đây nhất, đồng thời vẫn cố gắng tìm nạp phiên bản mới. Bạn có thể xem phiên bản phiên bản có thể tìm nạp được gần đây nhất trong nhật ký phiên bản.
  3. Nếu sau 30 ngày mà lỗi vẫn chưa được khắc phục:
    • Nếu có thể truy cập được trang web đó, Google sẽ coi như không có tệp robots.txt (nhưng vẫn tiếp tục tìm phiên bản mới).
    • Nếu trang web có vấn để về khả năng truy cập công khai, Google sẽ ngừng thu thập dữ liệu trên trang web đó, trong khi vẫn định kỳ yêu cầu tệp robots.txt.

Nếu tìm thấy và có thể tìm nạp tệp robots.txt: Google sẽ lần lượt đọc từng dòng trong tệp đó. Nếu một dòng gặp lỗi hoặc không thể phân tích cú pháp thành quy tắc trong tệp robots.txt, dòng đó sẽ bị bỏ qua. Nếu không có dòng nào hợp lệ trong tệp, Google sẽ xem đây là tệp robots.txt trống, tức là không có quy tắc nào được khai báo cho trang web.

Vị trí của tệp robots.txt

Thuật ngữ:

  • Giao thức (còn gọi là giản đồ) là HTTP hoặc HTTPS.
  • Máy chủ lưu trữ là mọi nội dung trong URL đứng sau giao thức (http:// hoặc https://) cho đến đường dẫn. Chẳng hạn như máy chủ lưu trữ m.de.example.com ngụ ý rằng có thể có 3 máy chủ lưu trữ gồm: m.de.example.com, de.example.com và example.com, mỗi máy chủ có thể có một tệp robots.txt riêng.
  • Nguồn gốc là giao thức + máy chủ lưu trữ. Chẳng hạn như https://example.com/ hoặc https://m.example.co.es/

Theo RFC 9309, tệp robots.txt phải nằm ở thư mục gốc của mỗi tổ hợp gồm giao thức và máy chủ lưu trữ trên trang web của bạn.

Đối với Tài sản miền:

  1. Search Console sẽ chọn 20 máy chủ lưu trữ hàng đầu, sắp xếp theo tốc độ thu thập dữ liệu. Đối với từng miền, báo cáo có thể cho thấy tối đa 2 nguồn gốc, tức là bảng này có thể cho thấy tối đa 40 hàng. Nếu bạn không tìm thấy URL của tệp robots.txt cho một trong các máy chủ lưu trữ của mình, hãy tạo một tài sản miền cho miền con bị thiếu.
  2. Đối với mỗi máy chủ lưu trữ, Search Console sẽ kiểm tra hai URL:
    • http://<máy chủ lưu trữ>/robots.txt
    • https://<máy chủ lưu trữ>/robots.txt
  3. Nếu tệp robots.txt tại URL được yêu cầu được báo cáo là Không tìm thấy trong 30 ngày, thì Search Console sẽ không cho thấy URL đó trong báo cáo này, tuy Google vẫn sẽ tiếp tục kiểm tra URL đó dù không báo cáo. Đối với mọi kết quả khác, báo cáo sẽ cho thấy URL đã kiểm tra.

Đối với tài sản có tiền tố URL ở cấp máy chủ lưu trữ (ví dụ: https://example.com/), Search Console chỉ kiểm tra một nguồn gốc duy nhất cho tài sản đó. Tức là: đối với tài sản https://example.com, Search Console sẽ chỉ kiểm tra https://example.com/robots.txt chứ không kiểm tra http://example.com/robots.txt hoặc https://m.example.com/robots.txt.

Các thao tác phổ biến

Xem tệp robots.txt

Để mở tệp robots.txt có trong báo cáo này, hãy nhấp vào tệp đó trong danh sách tệp robots.txt. Để mở tệp trong trình duyệt, hãy nhấp vào Mở tệp robots.txt đang hoạt động.

Bạn có thể mở mọi tệp robots.txt trên web bằng trình duyệt của mình. Xem phần dưới đây để tìm hiểu xem nên truy cập URL nào.

Nơi có thể đặt tệp robots.txt

Tệp robots.txt nằm ở thư mục gốc của giao thức và miền. Để xác định URL, hãy cắt bỏ mọi nội dung đằng sau máy chủ lưu trữ (và cổng không bắt buộc) trong URL của một tệp rồi thêm "/robots.txt". Bạn có thể truy cập tệp robots.txt (nếu có) trong trình duyệt của mình. Tệp robots.txt không được miền con hoặc miền gốc kế thừa, đồng thời một trang nhất định chỉ có thể chịu ảnh hưởng của một tệp robots.txt. Một số ví dụ:

URL của tệp URL của tệp robots.txt có thể ảnh hưởng đến tệp đó
http://example.com/home http://example.com/robots.txt
https://m.de.example.com/some/page/here/mypage https://m.de.example.com/robots.txt
https://example.com?pageid=234#myanchor https://example.com/robots.txt
https://images.example.com/hoa/thuytien.png https://images.example.com/robots.txt

Xem tệp robots.txt nào ảnh hưởng đến một trang hoặc hình ảnh

Để tìm URL của tệp robots.txt ảnh hưởng đến một trang hoặc hình ảnh cụ thể, hãy làm như sau:

  1. Tìm URL chính xác của trang hoặc hình ảnh đó. Đối với hình ảnh, trong trình duyệt Google Chrome, hãy nhấp chuột phải rồi chọn Sao chép URL của hình ảnh.
  2. Xoá phần cuối của URL đằng sau miền cấp cao nhất (ví dụ: .com, .org, .co.il) rồi thêm /robots.txt vào cuối. Theo đó, tệp robots.txt cho https://images.example.com/hoa/thuytien.png là https://images.example.com/robots.txt
  3. Mở URL trong trình duyệt của bạn để chắc chắn rằng tệp đó tồn tại. Nếu trình duyệt của bạn không mở được tệp đó, thì tức là tệp đó không tồn tại.

Kiểm tra xem Google có bị tệp robots.txt chặn hay không

  • Nếu muốn kiểm tra xem một URL cụ thể có bị tệp robots.txt chặn hay không, bạn có thể kiểm tra khả năng truy cập của URL bằng Công cụ kiểm tra URL.
  • Nếu muốn kiểm thử một quy tắc cụ thể trong tệp robots.txt đối với một tệp chưa có trên web, hoặc muốn kiểm thử một quy tắc mới, bạn có thể sử dụng công cụ kiểm thử tệp robots.txt của bên thứ ba.

Thông tin khác

Thông tin này có hữu ích không?

Chúng tôi có thể cải thiện trang này bằng cách nào?

Bạn cần trợ giúp thêm?

Hãy thử các bước tiếp theo sau:

Tìm kiếm
Xóa nội dung tìm kiếm
Đóng tìm kiếm
Trình đơn chính
5018181936637913131
true
Tìm kiếm trong Trung tâm trợ giúp
true
true
true
true
true
83844
false
false