Googlebot

Googlebot เป็นบ็อตรวบรวมข้อมูลเว็บของ Google (บางครั้งเรียกว่า "แมงมุม") การรวบรวมข้อมูลเป็นขั้นตอนที่ Googlebot จะค้นพบหน้าเว็บที่ใหม่และอัปเดต เพื่อเพิ่มลงในดัชนีของ Google

เราใช้ชุดคอมพิวเตอร์ขนาดใหญ่ในการดึงข้อมูล (หรือ "รวบรวมข้อมูล") หน้าเว็บหลายพันล้านหน้า Googlebot ใช้ขั้นตอนแบบอัลกอริทึม กล่าวคือ โปรแกรมคอมพิวเตอร์จะกำหนดเว็บไซต์ที่จะรวบรวมข้อมูล ความถี่ และจำนวนหน้าเว็บที่จะดึงข้อมูลจากเว็บไซต์แต่ละแห่ง

วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ

สำหรับเว็บไซต์ส่วนใหญ่ Googlebot ไม่ควรเข้าถึงเว็บไซต์ของคุณเกินกว่าหนึ่งครั้งในทุก 2-3 วินาทีโดยเฉลี่ย อย่างไรก็ตาม เนื่องจากความล่าช้าของเครือข่าย อาจเป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ

Googlebot ได้รับการออกแบบมาเพื่อกระจายไปยังเครื่องหลายเครื่องเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น นอกจากนี้ เรายังใช้โปรแกรมรวบรวมข้อมูลจำนวนมากในเครื่องที่ตั้งอยู่ใกล้กับไซต์ที่โปรแกรมกำลังจัดทำดัชนีในเครือข่ายเพื่อเป็นการลดการใช้แบนด์วิดท์ ดังนั้น บันทึกของคุณอาจแสดงการเข้าชมจากหลายเครื่องที่ google.com ซึ่งทั้งหมดเป็นการเข้าชมของ user-agent Googlebot เป้าหมายของเราคือรวบรวมข้อมูลหน้าเว็บจากเว็บไซต์ของคุณมากที่สุดเท่าที่เราจะทำได้ในระหว่างการเข้าชมแต่ละครั้ง โดยไม่ทำให้เกิดปัญหากับแบนด์วิดท์ของเซิร์ฟเวอร์ของคุณ ขอเปลี่ยนแปลงอัตราการรวบรวมข้อมูล

การบล็อกไม่ให้ Googlebot เข้าถึงเนื้อหาในเว็บไซต์ของคุณ

การเก็บเว็บเซิร์ฟเวอร์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บเซิร์ฟเวอร์นั้นๆ แทบจะเป็นไปไม่ได้ ทันทีที่มีคนคนติดตามลิงก์จากเซิร์ฟเวอร์ "ลับ" ของคุณไปยังเว็บเซิร์ฟเวอร์อื่น URL "ลับ" ของคุณจะปรากฏในแท็กผู้อ้างอิงและสามารถจัดเก็บหรือเผยแพร่โดยเว็บเซิร์ฟเวอร์อื่นในบันทึกผู้อ้างอิง ในทำนองเดียวกัน เว็บมีลิงก์ที่ล้าสมัยและเสียเป็นจำนวนมาก เมื่อใดก็ตามที่มีคนเผยแพร่ลิงก์ที่ไม่ถูกต้องไปยังเว็บไซต์ของคุณหรือไม่ได้อัปเดตลิงก์เพื่อแสดงถึงความเปลี่ยนแปลงในเซิร์ฟเวอร์ Googlebot จะพยายามดาวน์โหลดลิงก์ที่ไม่ถูกต้องจากเว็บไซต์ของคุณ

หากต้องการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลเนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าจะมีความแตกต่างระหว่างการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลหน้าเว็บ การป้องกันไม่ให้ Googlebot จัดทำดัชนีหน้าเว็บ และการป้องกันไม่ให้ทั้งโปรแกรมรวบรวมข้อมูลและผู้ใช้เข้าถึงหน้าเว็บ

ปัญหาเกี่ยวกับนักส่งสแปมและ User Agent อื่นๆ

ที่อยู่ IP ที่ Googlebot ใช้จะเปลี่ยนแปลงเป็นระยะๆ Googlebot จะระบุชื่อตนเองโดยใช้สตริง User Agent แต่อาจมีการปลอมแปลงชื่อได้ ดังนั้นวิธีที่ดีที่สุดในการระบุการเข้าถึงโดย Googlebot คือใช้การค้นหา DNS แบบย้อนกลับ

Googlebot และบอทของเครื่องมือค้นหาที่เชื่อถือได้ทั้งหมดจะคำนึงถึงคำสั่งใน robots.txt แต่ผู้มุ่งร้ายและนักส่งสแปมบางรายจะไม่คำนึงถึงคำสั่งเหล่านี้ รายงานสแปมไปยัง Google

Google มี user-agent อื่นๆ อีกหลายรายการ รวมทั้ง Feedfetcher (user-agent Feedfetcher-Google) เนื่องจากคำขอของ Feedfetcher มาจากการกระทำที่ชัดแจ้งของผู้ใช้ที่เป็นมนุษย์ที่ได้เพิ่มฟีดลงในหน้าแรกของ Google และไม่ได้มาจากโปรแกรมรวบรวมข้อมูลอัตโนมัติ Feedfetcher จะไม่ทำตามหลักเกณฑ์ของ robots.txt คุณสามารถป้องกันไม่ให้ Feedfetcher รวบรวมข้อมูลเว็บไซต์ของคุณโดยกำหนดค่าเซิร์ฟเวอร์ให้แสดงข้อความสถานะข้อผิดพลาด 404, 410 หรืออื่นๆ ไปยัง user-agent Feedfetcher-Google ข้อมูลเพิ่มเติมเกี่ยวกับ Feedfetcher

บทความนี้มีประโยชน์ไหม
เราจะปรับปรุงได้อย่างไร