Báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu

Báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trình bày số liệu thống kê về quá trình thu thập dữ liệu của Google trên trang web của bạn từ trước đến nay. Ví dụ: số liệu về số lượng yêu cầu và thời gian gửi yêu cầu, phản hồi của máy chủ của bạn và mọi vấn đề có thể gặp phải liên quan đến khả năng thu thập dữ liệu. Bạn có thể dùng báo cáo này để xác định xem Google có gặp vấn đề về khả năng phân phát khi thu thập dữ liệu trên trang web của bạn hay không.

Báo cáo này dành cho người dùng thành thạo. Nếu trang web của bạn có ít hơn 1.000 trang thì có lẽ bạn không cần dùng báo cáo này và cũng không cần lo lắng về hoạt động thu thập dữ liệu ở cấp độ chi tiết như vậy.

Báo cáo này chỉ được cung cấp cho những tài sản ở cấp miền gốc, nghĩa là các Tài sản miền (chẳng hạn như example.com hoặc m.example.com) hoặc tài sản có tiền tố URL ở cấp miền gốc (https://example.com, http://example.com, http://m.example.com).

Mở báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu

C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training

Bạn có thể truy cập báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trong Search Console bằng cách nhấp vào Cài đặt (Cài đặt tài sản) > Số liệu thống kê về hoạt động thu thập dữ liệu.

Bắt đầu

Bạn nên nắm rõ những thông tin sau trước khi dùng báo cáo này:

Giới thiệu về dữ liệu trong báo cáo

  • Tất cả URL xuất hiện và được tính trong báo cáo này đều là những URL được Google yêu cầu trên thực tế, không phải là gán dữ liệu cho các URL chính tắc như trong một số báo cáo khác.
  • Nếu một URL có lệnh chuyển hướng phía máy chủ, thì mỗi yêu cầu trong chuỗi chuyển hướng sẽ được tính là một yêu cầu riêng. Tức là nếu trang 1 chuyển hướng đến trang 2 và trang 2 chuyển hướng đến trang 3, thì khi Google yêu cầu trang 1, bạn sẽ thấy các yêu cầu riêng cho trang 1 (trả về mã 301/302), trang 2 (trả về mã 301/302) và trang 3 (trả về mã 200 nếu không có vấn đề gì). Xin lưu ý rằng chỉ các trang trên miền hiện tại mới xuất hiện. Phản hồi lệnh chuyển hướng có loại tệp là "Loại tệp khác". Các lệnh chuyển hướng phía máy khách sẽ không được tính.
  • Đối với những lần thu thập dữ liệu mà chúng tôi đã xem xét nhưng không thực hiện do không có tệp robots.txt, chúng tôi sẽ tính những lần đó vào tổng số lần thu thập dữ liệu, nhưng có thể báo cáo sẽ không cung cấp được nhiều thông tin chi tiết về những lần thu thập không thành công như vậy. Thông tin khác
  • Tài nguyên và phạm vi:
    • Tất cả dữ liệu trong báo cáo chỉ áp dụng cho miền mà bạn đang chọn. Các yêu cầu đối với miền khác sẽ không xuất hiện. Trong đó bao gồm cả yêu cầu đối với tài nguyên trang bất kỳ (chẳng hạn như hình ảnh) được lưu trữ bên ngoài tài sản này. Do đó, nếu trang example.com/mypage của bạn có chứa hình ảnh google.com/img.png, thì yêu cầu đối với google.com/img.png sẽ không xuất hiện trong báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu cho tài sản example.com.
    • Tương tự như vậy, các yêu cầu đối với một miền đồng cấp khác trong cùng một miền gốc (en.example và vi.example) sẽ không xuất hiện. Vì vậy, nếu bạn đang xem báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu cho en.example, các yêu cầu đối với một hình ảnh trên vi.example sẽ không xuất hiện.
    • Tuy nhiên, trong báo cáo cho miền gốc, bạn có thể thấy các yêu cầu đến các miền con. Ví dụ: nếu đang xem dữ liệu cho example.com, bạn có thể thấy tất cả yêu cầu đến example.com, en.example, vi.example.com cũng như mọi miền con khác ở mọi cấp độ dưới example.com.
    • Ngược lại, nếu các tài nguyên trên tài sản của bạn được sử dụng trên một trang trong một miền khác, thì có thể bạn sẽ thấy các yêu cầu thu thập dữ liệu liên quan đến trang lưu trữ. Tuy nhiên, bạn sẽ không thấy được ngữ cảnh nào cho biết rằng lý do hệ thống thu thập dữ liệu tài nguyên này là vì tài nguyên được sử dụng cho một trang trên một miền khác (nghĩa là bạn sẽ không thấy được dấu hiệu nào cho biết rằng hệ thống thu thập dữ liệu hình ảnh example.com/imageX.png do hình ảnh đó có trên trang anotherexample.com/mypage.)
    • Hệ thống thu thập dữ liệu trên cả hai giao thức http và https, ngay cả đối với các tài sản có tiền tố URL. Như vậy tức là báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu cho http://example.com sẽ bao gồm cả các yêu cầu đến http://example.com và https://example.com. Tuy nhiên, URL mẫu cho các tài sản có tiền tố URL chỉ được lấy qua giao thức mà bạn đã xác định cho tài sản đó (http hoặc https).
Vấn đề đã biết: Báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu hiện có chứa dữ liệu về hầu hết các yêu cầu thu thập dữ liệu, nhưng một số yêu cầu có thể không được tính vì nhiều lý do. Chúng tôi hy vọng sẽ tăng phạm vi báo cáo theo thời gian để cung cấp dữ liệu về hầu hết (và hy vọng là tất cả) yêu cầu. Do đó, có thể bạn nhận thấy những khác biệt nhỏ giữa nhật ký yêu cầu của trang web và các con số được báo cáo tại đây.

Khám phá nội dung báo cáo

Hãy nhấp vào một mục bất kỳ trong bảng để mở chế độ xem chi tiết cho mục đó, bao gồm danh sách URL mẫu. Hãy nhấp vào một URL để xem thông tin chi tiết cho yêu cầu thu thập dữ liệu đối với URL đó. Ví dụ: trong bảng thể hiện những phản hồi được nhóm theo loại, hãy nhấp vào hàng HTML để xem thông tin tổng hợp về tất cả trang HTML được thu thập dữ liệu trên trang web của bạn, cũng như xem một số thông tin chi tiết về những URL này như thời gian thu thập dữ liệu, mã phản hồi, kích thước phản hồi, v.v.

Máy chủ lưu trữ và các miền con

Nếu tài sản của bạn ở cấp miền (example.com, http://example.com, https://m.example.com) và tài sản này chứa ít nhất 2 miền con (chẳng hạn như vi.example.com và de.example.com), thì bạn có thể xem dữ liệu cho miền gốc (trong đó có dữ liệu cho tất cả miền con) hoặc chỉ tập trung vào một miền con duy nhất.

Để chỉ xem báo cáo một miền con cụ thể, hãy nhấp vào miền đó trong danh sách Máy chủ lưu trữ trên trang đích của miền gốc. Báo cáo này chỉ hiển thị 20 miền con nhận được lưu lượng truy cập cao nhất trong 90 ngày qua.

URL mẫu

Bạn có thể nhấp vào bất kỳ loại nào trong số các nhóm dữ liệu (phản hồi, loại tệp, mục đích, loại Googlebot) để xem danh sách URL mẫu của loại đó.

Danh sách URL mẫu là chưa đầy đủ mà chỉ nêu một số ví dụ điển hình. Nếu bạn không thấy một URL trong danh sách URL mẫu, thì điều đó không có nghĩa là chúng tôi không yêu cầu URL đó. Số lượng ví dụ có thể được đánh giá theo ngày, nên bạn có thể thấy rằng một số loại yêu cầu có nhiều ví dụ hơn các loại khác. Theo thời gian, số lượng ví dụ cho các loại yêu cầu sẽ trở nên cân bằng.

Tổng số yêu cầu thu thập dữ liệu

Đây là tổng số yêu cầu thu thập dữ liệu đối với các URL trên trang web của bạn, bất kể yêu cầu có thành công hay không. Trong đó bao gồm cả các yêu cầu đối với tài nguyên do trang sử dụng nếu tài nguyên đó nằm trên trang web của bạn. Báo cáo này không tính những yêu cầu đối với tài nguyên được lưu trữ bên ngoài trang web của bạn. Các yêu cầu trùng lặp cho cùng một URL sẽ được coi là các yêu cầu riêng biệt. Nếu tệp robots.txt của bạn không có trên trang web, thì hệ thống sẽ tính số lượt tìm nạp có khả năng xảy ra.

Những lượt tìm nạp sau đây được tính vào số lượng yêu cầu không thành công:

Tổng kích thước tải xuống

Đây là tổng số byte được tải xuống từ trang web của bạn trong quá trình thu thập dữ liệu và trong một khoảng thời gian nhất định. Nếu một tài nguyên trên trang mà Google lưu vào bộ nhớ đệm được sử dụng trên nhiều trang, thì hệ thống chỉ yêu cầu tài nguyên đó vào lần đầu tiên (khi Google lưu tài nguyên vào bộ nhớ đệm).

Thời gian phản hồi trung bình

Đây là thời gian phản hồi trung bình cho tất cả tài nguyên được tìm nạp qua trang web của bạn trong một khoảng thời gian nhất định. Mỗi tài nguyên liên kết với một trang sẽ được tính là một phản hồi riêng biệt.

Trạng thái của máy chủ lưu trữ

Trạng thái của máy chủ lưu trữ cho biết liệu Google có gặp phải vấn đề về khả năng lập chỉ mục khi cố gắng thu thập dữ liệu trên trang web của bạn hay không. Trạng thái của máy chủ lưu trữ có thể là một trong những giá trị sau:

  • No significant availability issues icon
    Google không gặp phải vấn đề lớn nào về khả năng tiếp cận để thu thập dữ liệu trên trang web của bạn trong 90 ngày qua – rất tốt! Bạn không cần làm gì thêm.
  • Some availability issues, but not recently
    Google gặp phải ít nhất một vấn đề lớn về khả năng thu thập dữ liệu trên trang web của bạn trong 90 ngày qua, nhưng vấn đề này đã xảy ra hơn một tuần trước. Lỗi này có thể là một vấn đề tạm thời hoặc vấn đề này có thể đã được giải quyết. Bạn nên kiểm tra bảng Phản hồi để xem vấn đề đó là gì và quyết định xem liệu bạn có cần hành động không.
  • Recent availability issue
    Google gặp phải ít nhất một vấn đề lớn về khả năng tiếp cận để thu thập dữ liệu trên trang web của bạn trong tuần qua. Vì lỗi này xảy ra gần đây nên bạn cần xác định xem đây có phải là một vấn đề lặp lại hay không. Hãy kiểm tra bảng Phản hồi để xem vấn đề đó là gì và quyết định xem liệu bạn có cần hành động không.
Kết quả mong đợi

Lý tưởng nhất là máy chủ lưu trữ của bạn có trạng thái màu Xanh lục. Nếu trạng thái khả năng tiếp cận dữ liệu có màu đỏ, hãy nhấp để xem thông tin chi tiết về việc có tệp robots.txt hay không, hoạt động phân giải của DNS và tình trạng kết nối của máy chủ lưu trữ.

Thông tin chi tiết về trạng thái của máy chủ lưu trữ

Trạng thái khả năng thu thập dữ liệu qua máy chủ lưu trữ được đánh giá theo những danh mục sau. Lỗi lớn thuộc mọi danh mục đều có thể gây ra tình trạng thu thập dữ liệu kém hơn. Bạn có thể nhấp vào một danh mục trong báo cáo để xem thêm thông tin chi tiết.

Đối với mỗi danh mục, bạn sẽ thấy một biểu đồ về tình trạng thu thập dữ liệu cho khoảng thời gian tương ứng. Biểu đồ này có một đường nét đứt màu đỏ; nếu chỉ số nằm trên đường nét đứt của danh mục này (ví dụ: nếu DNS không phân giải được hơn 5% yêu cầu vào một ngày nhất định), thì đây được coi là một vấn đề trong danh mục đó và trạng thái tương ứng sẽ phản ánh thời gian gần đây nhất xảy ra vấn đề này.

  • Tìm nạp tệp robots.txt
    Biểu đồ này hiển thị tỷ lệ lỗi đối với các yêu cầu tìm nạp tệp robots.txt trong quá trình thu thập dữ liệu. Google thường xuyên yêu cầu tệp này và nếu yêu cầu đó không trả về một tệp hợp lệ (tệp có nội dung hoặc tệp rỗng) hoặc một phản hồi 404 (tệp không tồn tại), thì Google sẽ làm chậm hoặc ngừng quá trình thu thập dữ liệu trên trang web của bạn cho đến khi nhận được phản hồi cho một tệp robots.txt hợp lệ. (Xem thêm thông tin trong phần dưới đây)
  • Hoạt động phân giải của DNS
    Biểu đồ này cho thấy thời điểm máy chủ DNS của bạn không nhận ra tên máy chủ hoặc không phản hồi trong quá trình thu thập dữ liệu. Nếu bạn thấy lỗi, hãy kiểm tra với nhà đăng ký tên miền của bạn để đảm bảo bạn đã thiết lập trang web đúng cách và máy chủ của bạn đã kết nối với Internet.
  • Khả năng kết nối của máy chủ
    Biểu đồ này cho thấy thời điểm máy chủ của bạn không phản hồi hoặc không cung cấp phản hồi đầy đủ cho một URL trong quá trình thu thập dữ liệu. Hãy tham khảo nội dung Lỗi máy chủ để tìm hiểu cách khắc phục những lỗi này.
Tìm hiểu thêm về tình trạng có/không có tệp robots.txt

Nội dung sau đây mô tả chi tiết hơn về cách Google kiểm tra (và phụ thuộc vào) tệp robots.txt khi thu thập dữ liệu trên trang web của bạn.

Trang web của bạn không bắt buộc phải có tệp robots.txt, nhưng phải trả về phản hồi thành công (theo định nghĩa dưới đây) khi Google yêu cầu cung cấp tệp này. Nếu không, Google có thể dừng thu thập dữ liệu trên trang web của bạn.

  • Phản hồi thành công cho yêu cầu cung cấp tệp robots.txt
  • Mọi trường hợp sau đây đều được coi là phản hồi thành công:
    • HTTP 200 và một tệp robots.txt (đó có thể là tệp hợp lệ, không hợp lệ hoặc rỗng). Nếu tệp đó có lỗi cú pháp thì yêu cầu vẫn được coi là thành công. Dù vậy Google có thể sẽ bỏ qua mọi quy tắc trong trường hợp tệp có lỗi cú pháp.
    • HTTP 403/404/410 (tệp không tồn tại). Trang web của bạn không bắt buộc phải có tệp robots.txt.
  • Phản hồi không thành công cho yêu cầu cung cấp tệp robots.txt

Sau đây là cách Google yêu cầu và sử dụng tệp robots.txt khi thu thập dữ liệu một trang web:

  1. Trước khi thu thập dữ liệu trên trang web của bạn, trước tiên, Google sẽ kiểm tra xem có yêu cầu truy xuất tệp robots.txt nào thành công gần đây hay không (không quá 24 giờ).
  2. Nếu nhận được phản hồi thành công cho yêu cầu truy xuất tệp robots.txt chưa quá 24 giờ, thì Google sẽ sử dụng tệp robots.txt đó khi thu thập dữ liệu trên trang web của bạn. (Hãy lưu ý rằng phản hồi 404 Không tìm thấy có nghĩa là không có tệp robots.txt và Google có thể thu thập dữ liệu của mọi URL trên trang web. Đây là một phản hồi thành công.)
  3. Nếu phản hồi gần nhất không thành công hoặc đã quá 24 giờ, Google sẽ yêu cầu truy xuất tệp robots.txt:
    • Nếu thành công, quá trình thu thập dữ liệu có thể bắt đầu.
    • Nếu không thành công:
      • Trong 12 giờ đầu tiên, Google sẽ ngừng thu thập dữ liệu trên trang web của bạn, nhưng sẽ tiếp tục yêu cầu truy xuất tệp robots.txt.
      • Từ 12 giờ đến 30 ngày, Google sẽ sử dụng tệp robots.txt gần nhất được tìm nạp thành công (trong khi vẫn tiếp tục yêu cầu truy xuất tệp robots.txt).
      • Sau 30 ngày:
        • Nếu đã có trang chủ của trang web, Google sẽ hoạt động như thể không có tệp robots.txt và thu thập dữ liệu mà không có hạn chế.
        • Nếu chưa có trang chủ, Google sẽ ngừng thu thập dữ liệu trên trang web đó.
        • Trong cả hai trường hợp, Google sẽ tiếp tục yêu cầu truy xuất tệp robots.txt của bạn định kỳ.
Mọi lượt thu thập dữ liệu bị bỏ qua do không có tệp robots.txt đều được tính trong tổng số lượt thu thập dữ liệu. Tuy nhiên, chúng tôi không thực sự thực hiện những lần thu thập dữ liệu này. Do đó, một số báo cáo theo nhóm (lượt thu thập dữ liệu theo mục đích, lượt thu thập dữ liệu theo phản hồi, v.v.) sẽ không liệt kê những lần thu thập dữ liệu này, hoặc có thể vẫn liệt kê nhưng cung cấp ít thông tin.

Phản hồi cho yêu cầu thu thập dữ liệu

Bảng này hiển thị các phản hồi mà Google nhận được khi thu thập dữ liệu trên trang web của bạn, phân theo loại phản hồi và hiển thị dưới dạng tỷ lệ phần trăm trên tất cả phản hồi cho các yêu cầu thu thập dữ liệu. Dữ liệu này dựa trên tổng số yêu cầu, không phải theo URL. Vì vậy, nếu Google yêu cầu một URL hai lần và nhận được Lỗi máy chủ (500) vào lần đầu tiên và nhận được phản hồi OK (200) vào lần thứ hai, thì tỷ lệ phản hồi sẽ là 50% Lỗi máy chủ và 50% OK.

Kết quả mong đợi
Hầu hết phản hồi sẽ là phản hồi 200 hoặc các loại phản hồi "Tốt" khác, trừ khi bạn đang sắp xếp lại hoặc di chuyển trang web. Hãy xem danh sách dưới đây để tìm hiểu cách xử lý các mã phản hồi khác.

 

Dưới đây là một số mã phản hồi thường gặp và cách xử lý:

Các mã phản hồi thể hiện tình trạng tốt

Những trang có tình trạng sau đây đều ổn và không gây ra vấn đề nào.

  • OK (200): Thông thường, phần lớn phản hồi sẽ là phản hồi 200.
  • Đã di chuyển vĩnh viễn (301): Trang của bạn trả về phản hồi HTTP 301 hoặc HTTP 308 (đã di chuyển vĩnh viễn). Có thể đây là phản hồi đúng với ý định của bạn.
  • Đã di chuyển tạm thời (302): Trang của bạn đang trả về phản hồi HTTP 302 hoặc HTTP 307 (đã di chuyển tạm thời). Có thể đây là phản hồi đúng với ý định của bạn. Nếu trang này đã di chuyển vĩnh viễn, hãy thay đổi thành phản hồi 301.
  • Đã di chuyển (khác): Làm mới meta.
  • Chưa được sửa đổi (304): Trang chưa thay đổi kể từ lần yêu cầu thu thập dữ liệu gần nhất.

Các mã phản hồi có thể đang thể hiện tình trạng tốt

Những trang có tình trạng sau đây có lẽ vẫn không sao, nhưng bạn có thể kiểm tra để chắc chắn rằng tình trạng này đúng với ý định của bạn.

  • Lỗi Không tìm thấy (404) có thể xảy ra do có đường liên kết bị hỏng bên trong hoặc bên ngoài trang web của bạn. Bạn không thể và cũng không cần thiết phải sửa toàn bộ lỗi 404 trên trang web của mình. Phản hồi 404 thường là phản hồi đúng (ví dụ: trong trường hợp trang thực sự biến mất mà không có trang thay thế). Tìm hiểu cách sửa lỗi 404 và những trường hợp cần sửa lỗi này.

Các mã phản hồi thể hiện tình trạng không tốt

Bạn nên sửa những trang trả về các lỗi sau đây để cải thiện quá trình thu thập dữ liệu.

  • robots.txt không tồn tại: Nếu tạm thời bạn không có tệp robots.txt, Google sẽ tạm dừng việc thu thập dữ liệu trong một thời gian cho đến khi nhận được một phản hồi hợp lệ cho yêu cầu truy xuất tệp robots.txt. Hãy nhớ đừng che giấu tệp robots.txt của bạn trước Google hoặc thay đổi trang robots.txt tuỳ theo tác nhân người dùng.
    Phản hồi này không giống với phản hồi "Không tìm thấy (404)" cho tệp robots.txt. Phản hồi này được coi là một phản hồi tốt. Xem thông tin khác về tệp robots.txt.
  • Không được phép (401/407): Bạn nên chặn không cho thu thập dữ liệu trên những trang này qua tệp robots.txt hoặc quyết định xem có nên bỏ chặn những trang này hay không. Nếu những trang này không có dữ liệu cần bảo mật và bạn muốn Google thu thập dữ liệu trên đó, thì bạn có thể cân nhắc việc di chuyển những thông tin này đến các trang không bảo mật hoặc cho phép Googlebot truy cập mà không cần đăng nhập (nhưng bạn nên lưu ý rằng Googlebot có thể bị giả mạo, vì vậy việc cho phép Googlebot truy cập cũng có thể làm giảm tính bảo mật của trang).
  • Lỗi máy chủ (5XX): Những lỗi này gây ra cảnh báo về khả năng tiếp cận dữ liệu và cần được khắc phục nếu có thể. Biểu đồ trong hình thu nhỏ thể hiện gần đúng thời điểm khi những lỗi này xảy ra; hãy nhấp vào để xem thông tin chi tiết và thời gian chính xác. Hãy xác định xem đây là những vấn đề tạm thời hay là dấu hiệu cho thấy trang web của bạn gặp những lỗi nghiêm trọng hơn liên quan đến khả năng tiếp cận dữ liệu. Nếu Google đang thu thập dữ liệu trang web của bạn quá mức, bạn có thể yêu cầu giảm tốc độ thu thập dữ liệu. Nếu đây là dấu hiệu cho thấy một vấn đề nghiêm trọng liên quan đến khả năng truy cập dữ liệu, hãy đọc tài liệu về trường hợp mức độ thu thập dữ liệu tăng đột biến. Hãy tham khảo nội dung Lỗi máy chủ để tìm hiểu cách khắc phục những lỗi này.
  • Lỗi máy khách khác (4XX): Một lỗi 4XX (phía máy khách) chưa được xác định ở đây. Tốt nhất bạn nên khắc phục những vấn đề này.
  • DNS không phản hồi: Máy chủ DNS của bạn không phản hồi các yêu cầu truy xuất URL trên trang web của bạn.
  • Lỗi DNS: Một lỗi DNS khác chưa được xác định.
  • Lỗi tìm nạp: Không thể tìm nạp trang do số cổng không phù hợp, do địa chỉ IP hoặc do không thể phân tích cú pháp của phản hồi.
  • Không thể truy cập trang: Các lỗi khác khi truy xuất trang khiến yêu cầu không đến được máy chủ. Vì những yêu cầu này không đến được máy chủ nên sẽ không xuất hiện trong nhật ký của bạn.
  • Trang hết thời gian chờ: Yêu cầu truy xuất trang đã hết thời gian chờ.
  • Lỗi chuyển hướng: Lỗi chuyển hướng yêu cầu, chẳng hạn như có quá nhiều lệnh chuyển hướng, lệnh chuyển hướng trống hoặc lệnh chuyển hướng theo vòng.
  • Lỗi khác: Một lỗi khác không thuộc danh mục nào ở trên.

Các loại tệp được thu thập dữ liệu

Đây là những loại tệp được trả về theo yêu cầu. Giá trị phần trăm của mỗi loại là tỷ lệ phần trăm phản hồi đối với loại đó, chứ không phải tỷ lệ phần trăm số byte thuộc loại đó được truy xuất.

Loại tệp có thể mang những giá trị sau:

  • HTML
  • Hình ảnh
  • Video – Một trong các định dạng video được hỗ trợ.
  • JavaScript
  • CSS
  • PDF
  • Tệp XML khác – Tệp XML, không bao gồm định dạng RSS, KML hoặc định dạng nào khác được xây dựng dựa trên XML.
  • JSON
  • Tệp phân phối – Nguồn cấp dữ liệu có định dạng RSS hoặc Atom
  • Âm thanh
  • Dữ liệu địa lý – Định dạng KML hoặc các định dạng dữ liệu địa lý khác.
  • Loại tệp khác – Loại tệp khác chưa được xác định ở đây. Các lệnh chuyển hướng cũng được đưa vào nhóm này.
  • Không xác định (Không thành công) – Nếu yêu cầu không thành công, thì loại tệp là không xác định.
Kết quả mong đợi
Nếu bạn đang gặp vấn đề về khả năng tiếp cận dữ liệu hoặc tốc độ phản hồi chậm, hãy tham khảo bảng này để biết loại tài nguyên mà Google đang thu thập dữ liệu và tại sao quá trình thu thập dữ liệu của bạn bị chậm. Có phải Google đang yêu cầu truy xuất nhiều hình ảnh nhỏ vốn nên bị chặn không? Có phải Google đang yêu cầu truy xuất những tài nguyên được lưu trữ trên một trang web khác có tốc độ phản hồi chậm không? Hãy nhấp vào từng loại tệp để xem biểu đồ về thời gian phản hồi trung bình theo ngày và về số lượng yêu cầu theo ngày, để xem liệu tình trạng tăng đột biến số lượng phản hồi bị chậm thuộc loại đó có tương quan với tình trạng tăng đột biến tần suất xảy ra tình trạng tốc độ chậm hoặc không thể truy cập dữ liệu nói chung hay không.

Mục đích thu thập dữ liệu

  • Khám phá: URL được yêu cầu là URL chưa từng được Google thu thập dữ liệu.
  • Làm mới: Thu thập lại dữ liệu của một trang đã biết.

Nếu bạn thường xuyên thay đổi những trang có tần suất thu thập dữ liệu còn thấp, hãy đưa những trang đó vào sơ đồ trang web. Đối với những trang ít được cập nhật hơn, có thể bạn sẽ phải yêu cầu thu thập lại dữ liệu. Nếu gần đây bạn gửi sơ đồ trang web hoặc thêm rất nhiều nội dung mới, thì bạn sẽ thấy biến động trong quá trình thu thập dữ liệu nhằm mục đích khám phá trên trang của bạn.

Loại Googlebot

Loại tác nhân người dùng được dùng để đưa ra yêu cầu thu thập dữ liệu. Google có một số loại tác nhân người dùng thu thập dữ liệu cho nhiều mục đích và thể hiện nhiều loại hành vi.

Loại Googlebot có thể mang những giá trị sau:

  • Điện thoại thông minh: Googlebot dành cho điện thoại thông minh
  • Máy tính: Googlebot dành cho máy tính
  • Hình ảnh: Googlebot dành cho hình ảnh. Trong trường hợp hình ảnh được tải dưới dạng một tài nguyên của trang, thì loại Googlebot sẽ là Tải tài nguyên trang chứ không phải là Hình ảnh.
  • Video: Googlebot dành cho video. Trong trường hợp video được tải dưới dạng một tài nguyên của trang, thì loại Googlebot sẽ là Tải tài nguyên trang chứ không phải là Video.
  • Tải tài nguyên trang: Tác nhân người dùng phụ để tìm nạp các tài nguyên mà trang của bạn sử dụng. Khi thu thập dữ liệu trên trang, Google sẽ tìm nạp các tài nguyên quan trọng được liên kết như hình ảnh hay tệp CSS để hiển thị trang đó trước khi lập chỉ mục. Đây là tác nhân người dùng đưa ra yêu cầu truy xuất cho những tài nguyên này.
  • AdsBot: Một trong các trình thu thập dữ liệu của AdsBot. Nếu bạn thấy số yêu cầu tăng đột biến, thì có khả năng gần đây bạn đã tạo một số mục tiêu mới cho Quảng cáo tìm kiếm động trên trang web của mình. Hãy xem bài viết Tại sao tốc độ thu thập dữ liệu trên trang của tôi tăng đột biến? AdsBot thu thập dữ liệu các URL khoảng 2 tuần một lần.
  • StoreBot: Trình thu thập dữ liệu về việc mua sắm sản phẩm.
  • Loại tác nhân người dùng khác: Một trình thu thập dữ liệu khác của Google chưa được xác định ở đây.

Nếu tốc độ thu thập dữ liệu trên trang của bạn tăng đột biến, hãy kiểm tra loại tác nhân người dùng. Nếu dường như mức tăng đột biến này là do trình thu thập dữ liệu AdsBot, hãy xem bài viết Tại sao tốc độ thu thập dữ liệu trên trang của tôi tăng đột biến?.

Khắc phục sự cố

Tốc độ thu thập dữ liệu quá cao

Googlebot có thuật toán để không tải trang web của bạn quá mức trong quá trình thu thập dữ liệu. Tuy nhiên, nếu vì lý do nào đó mà bạn cần giới hạn tốc độ thu thập dữ liệu, hãy tìm hiểu cách làm tại đây.

Tại sao tốc độ thu thập dữ liệu trên trang của tôi tăng đột biến?

Nếu bạn đăng nhiều thông tin mới hoặc trang web của bạn có những thông tin vô cùng hữu ích, thì có thể Google sẽ thu thập dữ liệu thường xuyên hơn một chút so với mong muốn của bạn. Ví dụ:

  • Bạn đã bỏ chặn thu thập dữ liệu đối với một mục lớn trên trang web của mình
  • Bạn đã thêm một mục lớn và mới vào trang web của mình
  • Bạn đã thêm nhiều mục tiêu mới cho Quảng cáo tìm kiếm động bằng cách thêm nguồn cấp dữ liệu trang hoặc thêm quy tắc URL_Equals

Nếu Google thu thập dữ liệu trang web của bạn thường xuyên đến mức khiến trang web gặp sự cố về khả năng truy cập, thì sau đây là cách bảo vệ trang web:

  1. Xác định trình thu thập dữ liệu của Google đang gây quá tải cho trang web của bạn. Hãy xem nhật ký trang web của bạn hoặc sử dụng báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu.
  2. Hạn chế tốc độ thu thập dữ liệu ngay lập tức:
    • Nếu bạn muốn có một giải pháp đơn giản, hãy sử dụng tệp robots.txt để chặn thu thập dữ liệu đối với tác nhân đang gây ra tình trạng quá tải (googlebot, adsbot, v.v.). Tuy nhiên, có thể mất đến một ngày thì thao tác này mới có hiệu lực. Nhưng đừng chặn quá lâu, vì điều này có thể ảnh hưởng lâu dài đến hoạt động thu thập dữ liệu trên trang web của bạn.
    • Nếu bạn có thể linh động phát hiện và xử lý mức tải gia tăng, hãy trả về HTTP 503/429 khi bạn sắp đạt đến giới hạn phân phát. Tuy nhiên, đừng trả về 503 hoặc 429 trong hơn 2 đến 3 ngày, vì việc này có thể khiến Google giảm tần suất thu thập dữ liệu trên trang web của bạn về lâu dài.
  3. Hai hoặc ba ngày sau, khi tốc độ thu thập dữ liệu của Google đã phù hợp, bạn có thể xoá các khối lệnh trong tệp robots.txt hoặc ngừng trả về mã lỗi 503 hoặc 429.
  4. Nếu bạn thấy AdsBot đang thu thập dữ liệu quá nhiều, thì vấn đề có thể là do bạn đã tạo quá nhiều mục tiêu cho Quảng cáo tìm kiếm động trên trang web của mình bằng cách sử dụng URL_Equals hoặc nguồn cấp dữ liệu trang. Nếu máy chủ của bạn không có khả năng xử lý những lần thu thập dữ liệu này, bạn nên giới hạn mục tiêu quảng cáo, chỉ thêm một số lượng nhỏ URL mỗi lần hoặc tăng khả năng phân phát của máy chủ. Xin lưu ý rằng AdsBot sẽ thu thập dữ liệu trang của bạn 2 tuần một lần, nên bạn cần khắc phục vấn đề để ngăn vấn đề này xảy ra lần nữa.

Tốc độ thu thập dữ liệu có vẻ quá thấp

Bạn không thể yêu cầu Google tăng tốc độ thu thập dữ liệu. Tuy nhiên, bạn có thể tìm hiểu thêm về cách quản lý hoạt động thu thập dữ liệu cho những trang web rất lớn hoặc thường xuyên được cập nhật.

Đối với các trang web quy mô nhỏ hoặc trung bình, nếu bạn nhận thấy Google chưa thu thập hết dữ liệu trên trang web của mình, hãy thử cập nhật sơ đồ trang web và đảm bảo bạn không chặn trang nào.

Tại sao tốc độ thu thập dữ liệu trên trang của tôi lại giảm?

Nhìn chung, tốc độ thu thập dữ liệu của Google của bạn sẽ tương đối ổn định trong khoảng thời gian một hay hai tuần; nếu bạn thấy sự sụt giảm đột ngột, sau đây là một số nguyên nhân có thể:

  • Bạn đã thêm một quy tắc robots.txt mới (hoặc rất rộng). Hãy đảm bảo rằng bạn chỉ đang chặn tài nguyên mà bạn cần chặn. Nếu Google cần những tài nguyên cụ thể như tài nguyên CSS hoặc JavaScript để nắm được nội dung trang web, hãy đảm bảo bạn không chặn những tài nguyên này khỏi Googlebot.
  • Nếu trang web của bạn phản hồi chậm với các yêu cầu, Googlebot sẽ giảm yêu cầu để tránh làm quá tải máy chủ của bạn. Kiểm tra báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu để xem có phải trang web của bạn đang phản hồi chậm hơn không.
  • Nếu tỷ lệ lỗi máy chủ của bạn tăng lên, Googlebot sẽ giảm số lượng yêu cầu để tránh làm máy chủ của bạn quá tải.
  • Nếu một trang web có thông tin thay đổi ít thường xuyên hơn hoặc không có chất lượng cao, có thể chúng tôi sẽ không thường xuyên thu thập dữ liệu trên trang web đó. Hãy đánh giá trang web của bạn một cách thẳng thắn, nhận phản hồi khách quan của những người không liên quan đến trang web của bạn và suy nghĩ xem bạn có thể cải thiện trang web bằng cách nào hay ở những điểm nào.

Tổng số lượt thu thập dữ liệu trong báo cáo cao hơn nhiều so với tổng số trong nhật ký máy chủ của trang web

Nếu tổng số lượt thu thập dữ liệu trong báo cáo này cao hơn nhiều so với số yêu cầu thu thập dữ liệu của Google trong nhật ký máy chủ, thì có lẽ là vì Google không thu thập được dữ liệu trên trang web của bạn do bạn không có tệp robots.txt trong một thời gian quá dài. Khi điều này xảy ra, Google sẽ vẫn tính những lần thu thập dữ liệu mà đáng lẽ chúng tôi có thể thực hiện nếu có tệp robots.txt, nhưng trên thực tế thì chúng tôi không thực hiện những lần thu thập dữ liệu đó. Hãy kiểm tra trạng thái tìm nạp tệp robots.txt để xác nhận xem đây có phải là vấn đề không.

Thông tin này có hữu ích không?

Chúng tôi có thể cải thiện trang này bằng cách nào?

Bạn cần trợ giúp thêm?

Hãy thử các bước tiếp theo sau:

Tìm kiếm
Xóa nội dung tìm kiếm
Đóng tìm kiếm
Trình đơn chính
10049537211703721953
true
Tìm kiếm trong Trung tâm trợ giúp
true
true
true
true
true
83844
false
false