Googlebot

Googlebot là tên gọi chung cho trình thu thập dữ liệu web của Google. Googlebot là tên gọi chung cho hai loại trình thu thập dữ liệu khác nhau: trình thu thập dữ liệu trên máy tính để bàn (Googlebot Desktop) mô phỏng người dùng trên máy tính để bàn và trình thu thập trên thiết bị di động (Googlebot Smartphone) mô phỏng người dùng trên thiết bị di động.

Có thể cả Googlebot Desktop và Googlebot Smartphone đều sẽ thu thập dữ liệu trang web của bạn. Bạn có thể xác định loại phụ của Googlebot bằng cách xem chuỗi tác nhân người dùng trong yêu cầu. Tuy nhiên, cả hai loại trình thu thập dữ liệu đều có cùng một mã sản phẩm (mã tác nhân người dùng) trong tệp robots.txt và do đó, bạn không thể chọn nhắm mục tiêu Googlebot Mobile hay Googlebot Desktop bằng robot.txt.

Nếu bạn đã chuyển đổi trang web theo tính năng ưu tiên lập chỉ mục thiết bị di động trên Google thì phần lớn các yêu cầu thu thập dữ liệu của Googlebot sẽ do trình thu thập dữ liệu trên thiết bị di động thực hiện và phần nhỏ còn lại là trình thu thập dữ liệu trên máy tính để bàn. Đối với các trang web chưa chuyển đổi, phần lớn các lần thu thập dữ liệu sẽ do trình thu thập dữ liệu trên máy tính để bàn thực hiện. Trong cả hai trường hợp, trình thu thập phụ chỉ thu thập dữ liệu các URL mà trình thu thập chính đã thu thập dữ liệu.

 

Cách Googlebot truy cập trang web của bạn

Với hầu hết trang web, trung bình Googlebot sẽ không truy cập trang web của bạn nhiều hơn một lần trong vài giây. Tuy nhiên, do vấn đề trễ mạng nên có thể tốc độ truy cập trong những khoảng thời gian ngắn sẽ cao hơn một chút.

Chúng tôi đã thiết kế để hàng nghìn máy chạy Googlebot cùng lúc nhằm cải thiện hiệu suất và quy mô khi web phát triển. Ngoài ra, để giảm mức sử dụng băng thông, chúng tôi chạy nhiều trình thu thập dữ liệu trên các máy nằm gần các trang web mà chúng có thể thu thập dữ liệu. Vì thế nhật ký của bạn có thể hiển thị các lần truy cập từ một số máy tại google.com, tất cả đều có tác nhân người dùng Googlebot. Mục tiêu của chúng tôi là cố gắng hết sức thu thập càng nhiều trang từ trang web của bạn mỗi lần ghé thăm càng tốt mà không làm băng thông máy chủ của bạn quá tải. Nếu trang web của bạn gặp khó khăn trong việc đáp ứng các yêu cầu thu thập dữ liệu của Google, thì bạn có thể yêu cầu thay đổi tốc độ thu thập dữ liệu.

Chặn Googlebot truy cập trang web của bạn

Hầu như không thể giữ bí mật một máy chủ web bằng cách không xuất bản liên kết đến nó. Ngay khi một người nào đó theo một liên kết từ máy chủ "bí mật" của bạn đến một máy chủ web khác, URL "bí mật" của bạn có thể xuất hiện trong thẻ liên kết giới thiệu và có thể được lưu trữ và xuất bản bởi máy chủ web khác trong nhật ký liên kết giới thiệu của máy chủ đó. Tương tự, web có nhiều liên kết đã lỗi thời và bị hỏng. Mỗi khi ai đó xuất bản một liên kết không chính xác đến trang web của bạn hoặc không cập nhật liên kết để phản ánh thay đổi trong máy chủ của bạn, Googlebot sẽ cố thu thập dữ liệu liên kết không chính xác từ trang web của bạn.

Nếu muốn ngăn Googlebot thu thập dữ liệu nội dung trên trang web của bạn, bạn có một số cách để làm điều đó. Hãy lưu ý sự khác biệt giữa việc ngăn Googlebot thu thập dữ liệu một trang, ngăn Googlebot lập chỉ mục một trang và ngăn cả trình thu thập dữ liệu hoặc người dùng truy cập một trang.

Xác minh Googlebot

Trước khi bạn quyết định chặn Googlebot, hãy lưu ý rằng các trình thu thập dữ liệu khác thường giả mạo chuỗi tác nhân người dùng mà Googlebot sử dụng. Điều quan trọng là bạn phải xác minh rằng yêu cầu có vấn đề thực sự đến từ Google. Cách tốt nhất để xác minh rằng một yêu cầu thực sự đến từ Googlebot là sử dụng quy trình tra cứu DNS ngược đối với IP nguồn của yêu cầu.

Googlebot và tất cả bot công cụ tìm kiếm có uy tín sẽ tôn trọng các lệnh trong robots.txt, nhưng một số người ác ý và kẻ dùng mánh khóe để tăng thứ hạng tìm kiếm không làm như vậy. Google tích cực ngăn chặn những kẻ dùng mánh khóe để tăng thứ hạng tìm kiếm. Nếu nhận thấy các trang hoặc trang web có tính spam trong kết quả Google Tìm kiếm, bạn có thể báo cáo spam cho Google.

 

Thông tin này có hữu ích không?
Chúng tôi có thể cải thiện trang này bằng cách nào?