Googlebot

Googlebot เป็นชื่อทั่วไปของ Web Crawler ของ Google ซึ่งมีอยู่ 2 ประเภทดังนี้

Googlebot สำหรับสมาร์ทโฟน: Crawler สําหรับอุปกรณ์เคลื่อนที่ซึ่งจำลองเป็นผู้ใช้ในอุปกรณ์เคลื่อนที่
Googlebot สำหรับเดสก์ท็อป: Crawler ในเดสก์ท็อปซึ่งจำลองเป็นผู้ใช้ในเดสก์ท็อป

คุณระบุประเภทย่อยของ Googlebot ได้จากการดูส่วนหัวของคำขอ user-agent HTTP ในคำขอ อย่างไรก็ตาม Crawler ทั้ง 2 ประเภทจะปฏิบัติตามโทเค็นผลิตภัณฑ์เดียวกัน (โทเค็น User Agent) ใน robots.txt ดังนั้นคุณจึงเลือกกำหนดกลุ่มเป้าหมาย Googlebot สำหรับสมาร์ทโฟนหรือ Googlebot สำหรับเดสก์ท็อปอย่างใดอย่างหนึ่งโดยใช้ robots.txt ไม่ได้

สําหรับเว็บไซต์ส่วนใหญ่ Google จะจัดทําดัชนีเนื้อหาของรุ่นอุปกรณ์เคลื่อนที่เป็นหลัก ด้วยเหตุนี้ คําขอทำการ Crawl ส่วนใหญ่ของ Googlebot ก็จะทําโดยใช้ Crawler สำหรับอุปกรณ์เคลื่อนที่ และใช้ Crawler สำหรับเดสก์ท็อปเป็นส่วนน้อย

วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ

สำหรับเว็บไซต์ส่วนใหญ่ โดยเฉลี่ยแล้ว Googlebot จะไม่เข้าถึงเว็บไซต์เกิน 1 ครั้งในทุก 2-3 วินาที อย่างไรก็ตาม หากมีความล่าช้าเกิดขึ้น ก็เป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ

Googlebot ได้รับการออกแบบมาให้รองรับการเรียกใช้งานจากเครื่องหลายพันเครื่องพร้อมกันเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น นอกจากนี้ เรายังใช้โปรแกรมรวบรวมข้อมูลจำนวนมากในเครื่องที่ตั้งอยู่ใกล้กับเว็บไซต์ที่โปรแกรมอาจรวบรวมข้อมูลเพื่อเป็นการลดการใช้แบนด์วิดท์ด้วย ดังนั้น บันทึกของคุณจึงอาจแสดงการเข้าชมจากที่อยู่ IP หลายรายการ โดยทั้งหมดใช้ User Agent ของ Googlebot เป้าหมายของเราคือทำการ Crawl หน้าเว็บในเว็บไซต์ของคุณให้มากที่สุดในการเข้าชมแต่ละครั้ง โดยไม่ทําให้เซิร์ฟเวอร์ของคุณทํางานหนักเกินไป หากเว็บไซต์ของคุณมีปัญหาในการตอบกลับคําขอทำการ Crawl ของ Google ไม่ทัน ให้ลดอัตราการ Crawl

Googlebot ทำการ Crawl จากที่อยู่ IP ในสหรัฐอเมริกาเป็นหลัก ในกรณีที่ Googlebot ตรวจพบว่าเว็บไซต์หนึ่งบล็อกคำขอจากสหรัฐอเมริกา เว็บไซต์อาจพยายามทำการ Crawl จากที่อยู่ IP ในประเทศอื่นๆ ทั้งนี้ รายการของการบล็อกที่อยู่ IP ที่ Googlebot ใช้ในปัจจุบันมีให้บริการในรูปแบบ JSON

Googlebot จะทำการ Crawl ผ่าน HTTP/1.1 และ HTTP/2 หากเว็บไซต์รองรับ เวอร์ชันโปรโตคอลที่ใช้ในการ Crawl เว็บไซต์ไม่ได้เอื้อประโยชน์ต่อการจัดอันดับ อย่างไรก็ตาม การ Crawl ผ่าน HTTP/2 อาจช่วยประหยัดทรัพยากรการประมวลผล (เช่น CPU, RAM) ของเว็บไซต์และ Googlebot
หากเลือกที่จะไม่ทำการ Crawl ผ่าน HTTP/2 โปรดกำหนดให้เซิร์ฟเวอร์ที่โฮสต์เว็บไซต์ตอบกลับด้วยรหัสสถานะ HTTP 421 เมื่อ Googlebot พยายามทำการ Crawl เว็บไซต์ผ่าน HTTP/2 หากทําไม่ได้ คุณสามารถส่งข้อความถึงทีม Googlebot (เป็นวิธีแก้ปัญหาชั่วคราวเท่านั้น)

Googlebot สามารถทำการ Crawl 15 MB แรกของไฟล์ HTML หรือไฟล์ข้อความที่รองรับ โดยจะดึงข้อมูลทรัพยากรแต่ละรายการที่อ้างอิงใน HTML เช่น CSS และ JavaScript แยกกัน และการดึงข้อมูลแต่ละรายการจะอยู่ในขอบเขตของขีดจํากัดขนาดไฟล์เดียวกัน หลังจากไฟล์ 15 MB แรก Googlebot จะหยุด Crawl และจะพิจารณาเฉพาะ 15 MB แรกของไฟล์ในการจัดทําดัชนี และมีการจํากัดขนาดไฟล์สำหรับข้อมูลที่ไม่ได้บีบอัด Crawler อื่นๆ ของ Google เช่น Googlebot Video และ Googlebot Image อาจมีขีดจํากัดที่แตกต่างออกไป

เมื่อทำการ Crawl จากที่อยู่ IP ในสหรัฐอเมริกา เขตเวลาของ Googlebot คือเวลาเขตแปซิฟิก

การบล็อกไม่ให้ Googlebot เข้าชมเว็บไซต์

การเก็บเว็บไซต์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บไซต์นั้นๆ แทบจะเป็นไปไม่ได้ เช่น ทันทีที่มีคนติดตามลิงก์จากเว็บไซต์ "ลับ" ของคุณไปยังเว็บไซต์อื่น URL ของเว็บไซต์ "ลับ" อาจจะปรากฏในแท็กผู้บอกต่อ รวมถึงจะจัดเก็บและเผยแพร่ได้โดยเว็บไซต์อื่นในบันทึกผู้บอกต่อ

หากต้องการป้องกันไม่ให้ Googlebot ทำการ Crawl เนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าจะมีความแตกต่างระหว่างการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลหน้าเว็บ การป้องกันไม่ให้ Googlebot จัดทำดัชนีหน้าเว็บ และการป้องกันไม่ให้ทั้งโปรแกรมรวบรวมข้อมูลและผู้ใช้เข้าถึงหน้าเว็บ

การยืนยัน Googlebot

ก่อนตัดสินใจบล็อก Googlebot โปรดทราบว่าส่วนหัวของคำขอ user-agent HTTP ที่ Googlebot ใช้นั้นมักจะถูก Crawler อื่นๆ ปลอมแปลงขึ้น คุณควรตรวจสอบว่าคำขอที่มีปัญหามาจาก Google จริงๆ วิธีที่ดีที่สุดในการตรวจสอบว่าคำขอมาจาก Googlebot จริงๆ คือใช้การค้นหา DNS แบบย้อนกลับใน IP ของแหล่งที่มาของคำขอ หรือจับคู่ IP ของแหล่งที่มากับช่วง IP ของ Googlebot