เกี่ยวกับ robots.txt

ข้อมูลเบื้องต้นเกี่ยวกับ robots.txt

ข้อมูลพื้นฐานของไฟล์ robots.txt: ไฟล์ robots.txt คืออะไรและใช้งานอย่างไร

ไฟล์ robots.txt คืออะไร

ไฟล์ robots.txt จะบอกโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาว่า หน้าเว็บหรือไฟล์ใดในเว็บไซต์ที่โปรแกรมเข้ารวบรวมข้อมูลได้และไม่ได้ ซึ่งโดยหลักจะใช้เพื่อหลีกเลี่ยงไม่ให้มีการขอรวบรวมข้อมูลเว็บไซต์มากเกินไป แต่ไม่ได้ใช้เพื่อกันหน้าเว็บออกจาก Google หากต้องการกันหน้าเว็บออกจาก Google คุณควรใช้คำสั่ง noindex หรือปกป้องหน้าเว็บด้วยรหัสผ่าน

robots.txt ใช้ทำอะไร

ไฟล์ robots.txt ใช้เพื่อจัดการปริมาณการเข้ารวบรวมข้อมูลในเว็บไซต์เป็นหลัก และโดยปกติเพื่อกันหน้าเว็บออกจาก Google ทั้งนี้ขึ้นอยู่กับประเภทของไฟล์ ดังนี้

ประเภทหน้าเว็บ การจัดการปริมาณการเข้ารวบรวมข้อมูล ซ่อนจาก Google คำอธิบาย
หน้าเว็บ

สำหรับหน้าเว็บ (HTML, PDF หรือรูปแบบที่ไม่ได้เป็นสื่อที่ Google อ่านได้) อาจใช้ไฟล์ robots.txt เพื่อจัดการปริมาณการเข้ารวบรวมข้อมูลหากคุณคิดว่าเซิร์ฟเวอร์จะถูกร้องขอจากโปรแกรมรวบรวมข้อมูลของ Google มากเกินไป หรือเพื่อหลีกเลี่ยงการรวบรวมข้อมูลที่ไม่สำคัญหรือในหน้าเว็บที่คล้ายกันของเว็บไซต์

คุณไม่ควรใช้ robots.txt เป็นวิธีการในการซ่อนหน้าเว็บของคุณจากผลการค้นหาของ Google เพราะหากหน้าเว็บอื่นๆ ชี้ไปที่หน้าเว็บของคุณด้วยข้อความอธิบาย หน้าเว็บนั้นจะยังคงถูกจัดทำดัชนีได้โดยไม่ต้องไปที่หน้าเว็บ หากต้องการบล็อกหน้าเว็บจากผลการค้นหาให้ใช้วิธีอื่น เช่น การป้องกันด้วยรหัสผ่านหรือใช้คำสั่ง noindex

หากหน้าเว็บถูกบล็อกด้วยไฟล์ robots.txt เนื้อหาดังกล่าวจะยังคงปรากฏในผลการค้นหา แต่ผลการค้นหาจะไม่มีคำอธิบายและจะมีหน้าตาประมาณนี้ ไฟล์รูปภาพ, วิดีโอ, PDF และไฟล์ที่ไม่ใช่ HTML จะถูกตัดออก หากเห็นหน้าเว็บของคุณในผลการค้นหาและต้องการแก้ไข ให้ลบรายการ robots.txt ที่บล็อกหน้าดังกล่าว หากต้องการซ่อนหน้าเว็บทั้งหมดจากการค้นหา ให้ใช้วิธีการอื่น

ไฟล์สื่อ

ใช้ robots.txt เพื่อจัดการการเข้ารวบรวมข้อมูล และเพื่อป้องกันไม่ให้ไฟล์รูปภาพ วิดีโอ และเสียงปรากฏในผลการค้นหาของ Google (โปรดทราบว่าการทำเช่นนี้ไม่ได้ป้องกันไม่ให้หน้าเว็บหรือผู้ใช้อื่นๆ ลิงก์ไปยังไฟล์รูปภาพ/วิดีโอ/เสียงนั้นๆ)

ไฟล์ทรัพยากร

คุณใช้ robots.txt บล็อกไฟล์ทรัพยากรต่างๆ ได้ เช่น รูปภาพที่ไม่สำคัญ สคริปต์ หรือไฟล์รูปแบบ หากคุณคิดว่าหน้าที่โหลดโดยไม่มีทรัพยากรเหล่านี้จะไม่ได้รับผลกระทบอย่างชัดเจนจากการขาดไฟล์ดังกล่าว อย่างไรก็ตาม ถ้าการขาดทรัพยากรเหล่านี้ทำให้โปรแกรมรวบรวมข้อมูลของ Google เข้าใจหน้าเว็บได้ยากขึ้น คุณก็ไม่ควรบล็อกทรัพยากรเหล่านี้ เพราะจะทำให้ Google วิเคราะห์หน้าเว็บที่ต้องอาศัยทรัพยากรเหล่านั้นได้ไม่ดีเท่าที่ควร

ฉันใช้บริการโฮสติ้งเว็บไซต์

หากใช้บริการโฮสติ้งเว็บไซต์ เช่น Wix, Drupal หรือ Blogger คุณอาจไม่จำเป็นต้องแก้ไขไฟล์ robots.txt โดยตรง (หรืออาจแก้ไขไฟล์ไม่ได้) ผู้ให้บริการอาจแสดงหน้าการตั้งค่าการค้นหาหรือกลไกอื่นๆ ไว้แทนเพื่อบอกเครื่องมือค้นหาว่าจะให้รวบรวมข้อมูลหน้าเว็บของคุณหรือไม่

หากต้องการดูว่า Google เข้ามารวบรวมข้อมูลหน้าเว็บหรือไม่ ให้ค้นหา URL ของหน้าเว็บใน Google

หากต้องการซ่อน (หรือเลิกซ่อน) หน้าเว็บจากเครื่องมือค้นหา ให้เพิ่ม (หรือนำออก) ข้อกำหนดการเข้าสู่ระบบของหน้าเว็บที่อาจมีอยู่ และค้นหาวิธีการต่างๆ สำหรับการปรับเปลี่ยนการแสดงผลหน้าเว็บในเครื่องมือค้นหาในบริการโฮสติ้งของคุณ เช่น wix ซ่อนหน้าจากเครื่องมือค้นหา

ทำความเข้าใจเกี่ยวกับข้อจำกัดของ robots.txt

ก่อนที่จะสร้างหรือแก้ไขไฟล์ robots.txt คุณควรรู้ถึงข้อจำกัดของการบล็อก URL ด้วยวิธีนี้ บางครั้งคุณอาจต้องการพิจารณาใช้กลไกอื่นๆ เพื่อให้แน่ใจว่า URL ของคุณจะไม่เอื้อต่อการค้นหาบนเว็บ

  • เครื่องมือค้นหาบางรายการอาจไม่รองรับคำสั่ง robots.txt
    คำสั่งในไฟล์ robots.txt ไม่อาจบังคับให้โปรแกรมรวบรวมข้อมูลทำงานกับเว็บไซต์ของคุณตามต้องการ เพราะการทำตามคำสั่งจะขึ้นอยู่กับโปรแกรมรวบรวมข้อมูลนั้นเอง แม้ว่า Googlebot และโปรแกรมรวบรวมข้อมูลเว็บที่เชื่อถือได้อื่นๆ จะทำตามคำสั่งในไฟล์ robots.txt แต่โปรแกรมรวบรวมข้อมูลอื่นๆ อาจไม่ทำตามก็ได้ ดังนั้น ถ้าคุณต้องการที่จะเก็บข้อมูลให้ปลอดภัยจากโปรแกรมรวบรวมข้อมูลเว็บ ขอแนะนำให้คุณใช้วิธีการบล็อกอื่นๆ เช่น การปกป้องไฟล์ส่วนตัวในเซิร์ฟเวอร์ของคุณด้วยรหัสผ่าน
  • โปรแกรมรวบรวมข้อมูลที่แตกต่างกันตีความไวยากรณ์ต่างกัน
    แม้ว่าโปรแกรมรวบรวมข้อมูลเว็บที่เชื่อถือได้จะทำตามคำสั่งในไฟล์ robots.txt แต่โปรแกรมรวบรวมข้อมูลแต่ละโปรแกรมอาจตีความคำสั่งแตกต่างกันได้ คุณควรทราบถึงไวยากรณ์ที่เหมาะสมเพื่อจัดการกับโปรแกรมรวบรวมข้อมูลเว็บอื่นๆ เนื่องจากบางตัวอาจไม่เข้าใจคำสั่งบางอย่าง
  • หน้า robot.txt ยังคงจัดทำดัชนีได้หากลิงก์มาจากเว็บไซต์อื่นๆ
    แม้ว่า Google จะไม่รวบรวมข้อมูลหรือจัดทำดัชนีเนื้อหาที่ robots.txt บล็อกไว้ แต่เราก็อาจยังคงพบและจัดทำดัชนี URL ที่ไม่อนุญาตหากลิงก์มาจากที่อื่นๆ ในเว็บได้ ดังนั้น ที่อยู่ URL และอาจรวมถึงข้อมูลที่เผยแพร่ต่อสาธารณะอื่นๆ เช่น anchor text ในลิงก์ที่เชื่อมโยงไปยังหน้าอาจยังคงปรากฏในผลการค้นหาของ Google หากต้องการป้องกันอย่างเหมาะสมไม่ให้ URL ปรากฏในผลการค้นหาของ Google Search คุณควรตั้งรหัสผ่านป้องกันไฟล์ในเซิร์ฟเวอร์ของคุณ หรือใช้เมตาแท็ก noindex หรือส่วนหัวการตอบกลับ (หรือนำหน้าดังกล่าวออกไปเลย)
หมายเหตุ: การใช้คำสั่งในการรวบรวมข้อมูลและการจัดทำดัชนีหลายแบบร่วมกันอาจทำให้คำสั่งต่างๆ ขัดแย้งกันเองได้ ดูวิธีการกำหนดค่าคำสั่งเหล่านี้อย่างถูกต้องโดยอ่านได้ที่ส่วนการรวมคำสั่งในการรวบรวมข้อมูลกับการจัดทำดัชนี/การแสดงผลในเอกสารของ Google Developers

การทดสอบหน้าเว็บเพื่อดูการบล็อก robots.txt

คุณทดสอบได้ว่ากฎของ robots.txt บล็อกหน้าเว็บหรือไฟล์ทรัพยากรอยู่หรือไม่

หากต้องการทดสอบคำสั่ง noindex ให้ใช้เครื่องมือตรวจสอบ URL

ข้อมูลนี้มีประโยชน์ไหม
เราจะปรับปรุงได้อย่างไร