​รายงาน robots.txt

ดูว่า Google ประมวลผลไฟล์ robots.txt ของคุณได้หรือไม่

รายงาน robots.txt จะแสดงไฟล์ robots.txt ที่ Google พบสำหรับโฮสต์ 20 อันดับแรกในเว็บไซต์ของคุณ เวลาที่ทำการ Crawl ครั้งล่าสุด และคำเตือนหรือข้อผิดพลาดที่พบ นอกจากนี้รายงานยังช่วยให้คุณขอทำการ Crawl ไฟล์ robots.txt อีกครั้งสำหรับสถานการณ์ฉุกเฉินได้ด้วย

ไฟล์ robots.txt ใช้เพื่อป้องกันไม่ให้เครื่องมือค้นหาทำการ Crawl เว็บไซต์ ใช้ noindex หากต้องการป้องกันไม่ให้เนื้อหาปรากฏในผลการค้นหา

รายงานนี้ใช้ได้เฉพาะกับพร็อพเพอร์ตี้ในระดับโดเมน ซึ่งก็คือ

เปิดรายงาน robots.txt

 

ดูไฟล์ robots.txt และสถานะการ Crawl

ในพร็อพเพอร์ตี้โดเมน รายงานจะประกอบด้วยไฟล์ robots.txt จากโฮสต์ 20 อันดับแรกในพร็อพเพอร์ตี้นั้น

คุณจะเห็นข้อมูลต่อไปนี้สำหรับไฟล์ robots.txt แต่ละรายการที่ตรวจสอบโดย Search Console

  • เส้นทางไฟล์ - URL แบบเต็มที่ Google ตรวจสอบว่ามีไฟล์ robots.txt หรือไม่ URL จะปรากฏในรายงานก็ต่อเมื่อมีสถานะ "ดึงข้อมูลแล้ว" หรือ "ไม่ได้ดึงข้อมูล" ในวันใดก็ได้ในช่วง 30 วันที่ผ่านมา ดูตำแหน่งของไฟล์ robots.txt
  • สถานะการดึงข้อมูล - สถานะของคำขอดึงข้อมูลล่าสุดสำหรับไฟล์นี้ โดยค่าที่เป็นไปได้มีดังนี้
    • ไม่ได้ดึงข้อมูล - ไม่พบ (404): เกิดข้อผิดพลาด 404 (ไม่มีไฟล์อยู่) เมื่อขอไฟล์นี้ หากคุณโพสต์ไฟล์ robots.txt ใน URL ที่ระบุไว้แต่พบข้อผิดพลาดนี้ ให้ลองตรวจสอบ URL เพื่อดูว่ามีปัญหาความพร้อมใช้งานหรือไม่ ไฟล์ที่มีสถานะไม่พบ (404) เป็นเวลา 30 วันจะไม่ปรากฏในรายงานอีกต่อไป (แต่ Google จะตรวจสอบต่อไปในเบื้องหลัง) การที่ไม่มีข้อผิดพลาด robots.txt ก็ไม่เป็นปัญหา และหมายความว่า Google ทำการ Crawl URL ทั้งหมดในเว็บไซต์ได้ แต่โปรดอ่านลักษณะการทำงานของ Google เมื่อมีข้อผิดพลาด robots.txt เพื่อดูรายละเอียดทั้งหมด
    • ไม่ได้ดึงข้อมูล - เหตุผลอื่นๆ: เกิดปัญหาอื่นๆ บางอย่างเมื่อขอไฟล์นี้ ดูรายการปัญหาการจัดทําดัชนี
    • ดึงข้อมูลแล้ว: การพยายามทำการ Crawl ครั้งล่าสุดแสดงผลไฟล์ robots.txt สำเร็จ ปัญหาที่พบขณะแยกวิเคราะห์ไฟล์จะแสดงอยู่ในคอลัมน์ปัญหา ทั้งนี้ Google จะไม่สนใจบรรทัดที่มีปัญหา และจะใช้บรรทัดที่สามารถแยกวิเคราะห์ได้
  • ตรวจสอบเมื่อ - เวลาที่ Google พยายามทำการ Crawl URL นี้ครั้งล่าสุดตามเวลาท้องถิ่น
  • ขนาด - ขนาดของไฟล์ที่ดึงข้อมูลในหน่วยไบต์ หากการพยายามดึงข้อมูลครั้งล่าสุดไม่สำเร็จ ค่านี้จะว่างเปล่า
  • ปัญหา - ตารางแสดงจำนวนปัญหาการแยกวิเคราะห์ในเนื้อหาของไฟล์เมื่อดึงข้อมูลครั้งล่าสุด โดยข้อผิดพลาดจะทำให้ใช้กฎไม่ได้ แต่คำเตือนไม่ได้ป้องกันการใช้กฎ โปรดอ่านลักษณะการทำงานของ Google เมื่อมีข้อผิดพลาด robots.txt หากต้องการแก้ไขปัญหาการแยกวิเคราะห์ ให้ใช้โปรแกรมตรวจสอบ robots.txt

ดูเวอร์ชันที่ดึงข้อมูลล่าสุด

คุณดูเวอร์ชันที่ดึงข้อมูลล่าสุดของไฟล์ robots.txt ได้โดยคลิกที่ไฟล์นั้นจากรายการไฟล์ในรายงาน หากไฟล์ robots.txt มีข้อผิดพลาดหรือคำเตือน ระบบก็จะไฮไลต์ไว้ในเนื้อหาของไฟล์ที่แสดง คุณสามารถวนดูข้อผิดพลาดและคำเตือนไปมาได้โดยใช้แป้นลูกศร

ดูเวอร์ชันที่ดึงข้อมูลก่อนหน้านี้

หากต้องการดูคำขอดึงข้อมูลไฟล์ robots.txt ที่ระบุในช่วง 30 วันที่ผ่านมา ให้คลิกไฟล์จากรายการไฟล์ในรายงาน แล้วคลิกเวอร์ชัน หากต้องการดูเนื้อหาของไฟล์ในเวอร์ชันดังกล่าว ให้คลิกเวอร์ชันที่ต้องการ คำขอจะรวมอยู่ในประวัติก็ต่อเมื่อไฟล์ที่ดึงมาหรือผลการดึงข้อมูลแตกต่างจากคำขอดึงข้อมูลไฟล์ก่อนหน้า

หาก Google พบข้อผิดพลาดในการดึงข้อมูลในการพยายามดึงข้อมูลครั้งล่าสุด Google จะใช้เวอร์ชันที่ดึงข้อมูลสำเร็จล่าสุดซึ่งไม่มีข้อผิดพลาดเป็นเวลาสูงสุด 30 วัน

ขอให้ทำการ Crawl อีกครั้ง

คุณขอให้ทำการ Crawl ไฟล์ robots.txt อีกครั้งได้เมื่อแก้ไขข้อผิดพลาดหรือทําการเปลี่ยนแปลงที่สําคัญ

กรณีที่ควรขอให้ทำการ Crawl อีกครั้ง

โดยทั่วไปแล้วคุณไม่จำเป็นต้องส่งคำขอทำการ Crawl ไฟล์ robots.txt อีกครั้ง เนื่องจาก Google จะทำการ Crawl ไฟล์ robots.txt ซ้ำบ่อยครั้ง อย่างไรก็ตาม คุณอาจต้องการขอให้ทำการ Crawl ไฟล์ robots.txt อีกครั้งในกรณีต่อไปนี้

  • คุณเปลี่ยนกฎ robots.txt ให้เลิกบล็อก URL ที่สำคัญบางรายการและต้องการให้ Google ทราบอย่างรวดเร็ว (โปรดทราบว่าการดำเนินการนี้ไม่ได้รับประกันว่าจะมีการ Crawl URL ที่เลิกบล็อกอีกครั้งโดยทันที)
  • คุณแก้ไขข้อผิดพลาดในการดึงข้อมูลหรือข้อผิดพลาดร้ายแรงอื่นๆ แล้ว

วิธีขอให้ทำการ Crawl อีกครั้ง

หากต้องการขอให้ทำการ Crawl อีกครั้ง ให้เลือกไอคอนการตั้งค่าเพิ่มเติม ข้างไฟล์ในรายการไฟล์ robots แล้วคลิกขอให้ทำการ Crawl อีกครั้ง

เว็บไซต์ในบริการโฮสติ้งเว็บไซต์

หากเว็บไซต์โฮสต์อยู่ในบริการโฮสติ้งเว็บไซต์ การแก้ไขไฟล์ robots.txt อาจเป็นเรื่องยาก ในกรณีนี้ โปรดดูเอกสารประกอบของโฮสต์เว็บไซต์เกี่ยวกับวิธีบล็อกไม่ให้ Google ทำการ Crawl หรือจัดทำดัชนีหน้าเว็บหนึ่งๆ (โปรดทราบว่าผู้ใช้ส่วนใหญ่มักกังวลเกี่ยวกับการป้องกันไม่ให้ไฟล์ปรากฏใน Google Search มากกว่าที่ Google จะทำการ Crawl หากคุณกังวลในเรื่องนี้ โปรดค้นหาข้อมูลเกี่ยวกับการบล็อกหน้าเว็บจากเครื่องมือค้นหาในบริการโฮสติ้งของคุณ)

จะเกิดอะไรขึ้นเมื่อ Google ดึงข้อมูลหรืออ่าน robots.txt ไม่ได้

หากไม่พบไฟล์ robots.txt สำหรับโดเมนหรือโดเมนย่อย Google จะถือว่าสามารถทำการ Crawl URL ภายในโฮสต์นั้นได้

หาก Google พบไฟล์ robots.txt แต่ดึงข้อมูลไม่ได้ Google จะมีลักษณะการทำงานดังต่อไปนี้

  1. ในช่วง 12 ชั่วโมงแรก Google จะหยุดทำการ Crawl เว็บไซต์แต่ยังคงพยายามดึงข้อมูลไฟล์ robots.txt
  2. หาก Google ดึงข้อมูลเวอร์ชันใหม่ไม่ได้ ในอีก 30 วันข้างหน้า Google จะใช้เวอร์ชันที่ใช้งานได้ล่าสุดขณะที่ยังคงพยายามดึงข้อมูลเวอร์ชันใหม่ คุณสามารถดูเวอร์ชันที่ใช้งานได้ล่าสุดในประวัติเวอร์ชัน
  3. หากข้อผิดพลาดยังคงไม่ได้รับการแก้ไขหลังจากผ่านไป 30 วัน Google จะดำเนินการดังนี้
    • หากเว็บไซต์พร้อมใช้งานสำหรับ Google ตามปกติ Google ก็จะทำงานเสมือนว่าไม่มีไฟล์ robots.txt (แต่ยังคงตรวจหาเวอร์ชันใหม่)
    • หากเว็บไซต์มีปัญหาความพร้อมใช้งานตามปกติ Google จะหยุดทำการ Crawl เว็บไซต์ในขณะที่ยังขอไฟล์ robots.txt เป็นระยะๆ

หาก Google พบและดึงข้อมูลไฟล์ robots.txt ได้ Google จะอ่านไฟล์ทีละบรรทัด หากบรรทัดมีข้อผิดพลาดหรือแยกวิเคราะห์เป็นกฎ robots.txt ไม่ได้ ระบบจะข้ามบรรทัดนั้น หากไม่มีบรรทัดที่ถูกต้องในไฟล์ Google จะถือว่าไฟล์นี้เป็นไฟล์ robots.txt ที่ว่างเปล่า ซึ่งหมายความว่าไม่มีการประกาศกฎสำหรับเว็บไซต์ดังกล่าว

ตำแหน่งของไฟล์ robots.txt

คำศัพท์

  • โปรโตคอล (เรียกอีกอย่างว่ารูปแบบ) คือ HTTP หรือ HTTPS
  • โฮสต์คือทุกอย่างใน URL หลังโปรโตคอล (http:// หรือ https://) จนถึงเส้นทาง ดังนั้น โฮสต์ m.de.example.com จะมีโฮสต์ที่เป็นไปได้ 3 แบบ นั่นคือ m.de.example.com, de.example.com และ example.com โดยโฮสต์แต่ละแบบมีไฟล์ robots.txt ของตนเองได้
  • ต้นทาง คือโปรโตคอล + โฮสต์ ดังนั้นจึงเป็น https://example.com/ หรือ https://m.example.co.es/

ตาม RFC 9309 ไฟล์ robots.txt ต้องอยู่ที่รูทของแต่ละชุดค่าผสมระหว่างโปรโตคอลและโฮสต์ของเว็บไซต์

สำหรับพร็อพเพอร์ตี้โดเมน

  1. Search Console จะเลือกโฮสต์ 20 อันดับแรกโดยจัดเรียงตามอัตราการ Crawl รายงานอาจแสดงต้นทางสูงสุด 2 แห่งสำหรับแต่ละโดเมน ซึ่งหมายความว่าตารางจะแสดงได้สูงสุด 40 แถว หากคุณไม่พบ URL ของ robots.txt สำหรับโฮสต์แบบใดแบบหนึ่ง ให้สร้างพร็อพเพอร์ตี้โดเมนสำหรับโดเมนย่อยที่ขาดหายไป
  2. Search Console จะตรวจสอบ URL 2 รายการสำหรับแต่ละโฮสต์ ดังนี้
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. หากมีการรายงานไฟล์ robots.txt ใน URL ที่ขอว่าไม่พบเป็นเวลา 30 วัน Search Console จะไม่แสดง URL ในรายงานนี้ แม้ว่า Google จะตรวจสอบ URL ในเบื้องหลังต่อไป สำหรับผลลัพธ์อื่นๆ รายงานจะแสดง URL ที่เลือก

สำหรับพร็อพเพอร์ตี้คำนำหน้า URL ที่ระดับโฮสต์ (เช่น https://example.com/) Search Console จะตรวจสอบเพียงต้นทางเดียวสำหรับพร็อพเพอร์ตี้ดังกล่าว กล่าวคือ สำหรับพร็อพเพอร์ตี้ https://example.com นั้น Search Console จะตรวจสอบเฉพาะ https://example.com/robots.txt ไม่ใช่ http://example.com/robots.txt หรือ https://m.example.com/robots.txt

งานทั่วไป

ดูไฟล์ robots.txt

หากต้องการเปิดไฟล์ robots.txt ที่แสดงอยู่ในรายงานนี้ ให้คลิกไฟล์ในรายการไฟล์ robots.txt หากต้องการเปิดไฟล์ในเบราว์เซอร์ ให้คลิกเปิดไฟล์ robots.txt ที่ทำงานอยู่

คุณสามารถเปิดไฟล์ robots.txt บนเว็บในเบราว์เซอร์ได้ ดู URL ที่ควรเข้าชมได้จากด้านล่าง

ตำแหน่งของไฟล์ robots.txt

ไฟล์ robots.txt จะอยู่ที่รูทของโปรโตคอลและโดเมน หากต้องการระบุ URL ให้ตัดทุกอย่างที่อยู่หลังโฮสต์ (และพอร์ตที่ไม่บังคับ) ใน URL ของไฟล์ และเพิ่ม "/robots.txt" คุณสามารถไปที่ไฟล์ robots.txt ในเบราว์เซอร์ได้ หากมี ทั้งนี้ไฟล์ robots.txt ไม่ได้รับช่วงมาจากโดเมนย่อยหรือโดเมนหลัก และหน้าเว็บหนึ่งๆ อาจได้รับผลกระทบจากไฟล์ robots.txt ได้เพียงไฟล์เดียวเท่านั้น ตัวอย่างมีดังต่อไปนี้

URL ของไฟล์ URL ของ robots.txt ที่อาจส่งผลกระทบต่อไฟล์นั้น
http://example.com/home http://example.com/robots.txt
https://m.de.example.com/some/page/here/mypage https://m.de.example.com/robots.txt
https://example.com?pageid=234#myanchor https://example.com/robots.txt
https://images.example.com/flowers/daffodil.png https://images.example.com/robots.txt

ดูว่าไฟล์ robots.txt ใดที่จะส่งผลกระทบต่อหน้าเว็บหรือรูปภาพ

วิธีค้นหา URL ของไฟล์ robots.txt ที่จะส่งผลกระทบต่อหน้าเว็บหรือรูปภาพ

  1. ค้นหา URL ที่ตรงกันทุกประการของหน้าเว็บหรือรูปภาพ สำหรับรูปภาพ ให้คลิกขวาในเบราว์เซอร์ Google Chrome แล้วเลือกคัดลอก URL รูปภาพ
  2. นำส่วนท้ายของ URL หลังโดเมนระดับบนสุด (เช่น .com, .org, .co.il) ออก และเพิ่ม /robots.txt ต่อท้าย ดังนั้นไฟล์ robots.txt สำหรับ https://images.example.com/flowers/daffodil.png จะเป็น https://images.example.com/robots.txt
  3. เปิด URL ในเบราว์เซอร์เพื่อตรวจสอบว่ามี URL นั้นอยู่ หากเบราว์เซอร์เปิดไฟล์ไม่ได้ แสดงว่าไม่มีไฟล์นั้นอยู่

ทดสอบว่า Google ถูกบล็อกโดย robots.txt หรือไม่

ข้อมูลเพิ่มเติม

ข้อมูลนี้มีประโยชน์ไหม

เราจะปรับปรุงได้อย่างไร

หากต้องการความช่วยเหลือเพิ่มเติม

ลองทำตามขั้นตอนต่อไปนี้

ค้นหา
ล้างการค้นหา
ปิดการค้นหา
เมนูหลัก
13693915850099804264
true
ค้นหาศูนย์ช่วยเหลือ
true
true
true
true
true
83844
false
false