Trình thu thập thông tin, hay gọi là trình thu thập dữ liệu hoặc bot, là phần mềm Google sử dụng để xử lý và lập chỉ mục nội dung của trang web. Trình thu thập thông tin nội dung truy cập vào trang web của bạn để xác định nội dung của trang web nhằm cung cấp quảng cáo phù hợp.
Một số điều quan trọng cần biết về trình thu thập thông tin nội dung:
- Báo cáo của trình thu thập thông tin được cập nhật hằng tuần.
Quá trình thu thập thông tin được thực hiện tự động. Chúng tôi không thể đáp ứng các yêu cầu tăng tần suất thu thập thông tin. - Trình thu thập thông tin nội dung khác với trình thu thập thông tin của Google.
Đây là hai trình thu thập thông tin riêng biệt nhưng dùng chung bộ nhớ đệm. Chúng tôi thực hiện điều này nhằm tránh trường hợp cả hai trình thu thập thông tin cùng yêu cầu các trang giống nhau, từ đó giúp bạn tiết kiệm băng thông. Tương tự, trình thu thập thông tin của Search Console cũng riêng biệt. - Việc giải quyết các vấn đề với trình thu thập thông tin nội dung sẽ không giải quyết các vấn đề với trình thu thập thông tin của Google.
Việc khắc phục các vấn đề được liệt kê trên trang Truy cập của trình thu thập thông tin sẽ không ảnh hưởng đến thứ hạng của bạn trên Google Tìm kiếm.Lưu ý: Để tìm hiểu thêm về thứ hạng của trang web trên Google, hãy xem bài viết Đưa trang web của bạn vào kết quả tìm kiếm trên Google. - Trình thu thập thông tin lập chỉ mục theo URL.
Ví dụ: trình thu thập thông tin của chúng tôi sẽ truy cập vào "site.com" và "www.site.com" một cách riêng biệt. Tuy nhiên, trình thu thập thông tin của chúng tôi không tính riêng "site.com" và "site.com/#anchor". - Trình thu thập thông tin sẽ không truy cập vào các trang hoặc thư mục bị tệp robots.txt cấm.
Cả trình thu thập thông tin của Google và AdMob Mediapartners đều tuân thủ tệp robots.txt của bạn. Nếu tệp robots.txt của bạn cấm trình thu thập thông tin truy cập vào những trang hoặc thư mục nhất định, thì những trang hoặc thư mục đó sẽ không được thu thập thông tin.Lưu ý: Nếu bạn đang phân phát quảng cáo trên những trang bị tệp robots.txt chặn bằng dòng lệnhUser-agent: *
, thì trình thu thập thông tin nội dung sẽ vẫn thu thập thông tin trên những trang này. Để ngăn trình thu thập thông tin nội dung truy cập vào các trang của bạn, bạn cần chỉ địnhUser-agent: Mediapartners-Google
trong tệp robots.txt.Tìm hiểu thêm về cách Cấp quyền truy cập cho trình thu thập thông tin của chúng tôi vào trang của bạn. - Trình thu thập thông tin sẽ chỉ cố truy cập vào các URL có triển khai thẻ quảng cáo của chúng tôi.
Chỉ các trang hiển thị quảng cáo của Google mới gửi yêu cầu đến hệ thống của chúng tôi và được thu thập thông tin. - Trình thu thập thông tin sẽ cố gắng truy cập vào các trang chuyển hướng.
Khi bạn có "trang gốc" chuyển hướng đến trang khác, trình thu thập thông tin phải truy cập vào trang gốc để xác định rằng yêu cầu chuyển hướng được thực hiện. Do đó, việc trình thu thập thông tin truy cập vào các trang gốc sẽ xuất hiện trong nhật ký truy cập của bạn. - Bạn không thể kiểm soát tần suất trình thu thập thông tin của chúng tôi lập chỉ mục nội dung trên trang web của bạn.
Hiện tại, các bot của chúng tôi tự động thu thập thông tin. Nếu bạn thực hiện các thay đổi cho một trang, có thể mất từ 1 đến 2 tuần trước khi những thay đổi này được phản ánh trong chỉ mục của chúng tôi.