รายงาน robots.txt จะแสดงไฟล์ robots.txt ที่ Google พบสำหรับโฮสต์ 20 อันดับแรกในเว็บไซต์ของคุณ เวลาที่ทำการ Crawl ครั้งล่าสุด และคำเตือนหรือข้อผิดพลาดที่พบ นอกจากนี้รายงานยังช่วยให้คุณขอทำการ Crawl ไฟล์ robots.txt อีกครั้งสำหรับสถานการณ์ฉุกเฉินได้ด้วย
รายงานนี้ใช้ได้เฉพาะกับพร็อพเพอร์ตี้ในระดับโดเมน ซึ่งก็คือ
- พร็อพเพอร์ตี้โดเมน (เช่น example.com หรือ m.example.com) หรือ
- พร็อพเพอร์ตี้คำนำหน้า URL ที่ไม่มีเส้นทาง เช่น https://example.com/ แต่ไม่ใช่ https://example.com/path/
ดูไฟล์ robots.txt และสถานะการ Crawl
ในพร็อพเพอร์ตี้โดเมน รายงานจะประกอบด้วยไฟล์ robots.txt จากโฮสต์ 20 อันดับแรกในพร็อพเพอร์ตี้นั้น
คุณจะเห็นข้อมูลต่อไปนี้สำหรับไฟล์ robots.txt แต่ละรายการที่ตรวจสอบโดย Search Console
- เส้นทางไฟล์ - URL แบบเต็มที่ Google ตรวจสอบว่ามีไฟล์ robots.txt หรือไม่ URL จะปรากฏในรายงานก็ต่อเมื่อมีสถานะ "ดึงข้อมูลแล้ว" หรือ "ไม่ได้ดึงข้อมูล" ในวันใดก็ได้ในช่วง 30 วันที่ผ่านมา ดูตำแหน่งของไฟล์ robots.txt
- สถานะการดึงข้อมูล - สถานะของคำขอดึงข้อมูลล่าสุดสำหรับไฟล์นี้ โดยค่าที่เป็นไปได้มีดังนี้
- ไม่ได้ดึงข้อมูล - ไม่พบ (404): เกิดข้อผิดพลาด 404 (ไม่มีไฟล์อยู่) เมื่อขอไฟล์นี้ หากคุณโพสต์ไฟล์ robots.txt ใน URL ที่ระบุไว้แต่พบข้อผิดพลาดนี้ ให้ลองตรวจสอบ URL เพื่อดูว่ามีปัญหาความพร้อมใช้งานหรือไม่ ไฟล์ที่มีสถานะไม่พบ (404) เป็นเวลา 30 วันจะไม่ปรากฏในรายงานอีกต่อไป (แต่ Google จะตรวจสอบต่อไปในเบื้องหลัง) การที่ไม่มีข้อผิดพลาด robots.txt ก็ไม่เป็นปัญหา และหมายความว่า Google ทำการ Crawl URL ทั้งหมดในเว็บไซต์ได้ แต่โปรดอ่านลักษณะการทำงานของ Google เมื่อมีข้อผิดพลาด robots.txt เพื่อดูรายละเอียดทั้งหมด
- ไม่ได้ดึงข้อมูล - เหตุผลอื่นๆ: เกิดปัญหาอื่นๆ บางอย่างเมื่อขอไฟล์นี้ ดูรายการปัญหาการจัดทําดัชนี
- ดึงข้อมูลแล้ว: การพยายามทำการ Crawl ครั้งล่าสุดแสดงผลไฟล์ robots.txt สำเร็จ ปัญหาที่พบขณะแยกวิเคราะห์ไฟล์จะแสดงอยู่ในคอลัมน์ปัญหา ทั้งนี้ Google จะไม่สนใจบรรทัดที่มีปัญหา และจะใช้บรรทัดที่สามารถแยกวิเคราะห์ได้
- ตรวจสอบเมื่อ - เวลาที่ Google พยายามทำการ Crawl URL นี้ครั้งล่าสุดตามเวลาท้องถิ่น
- ขนาด - ขนาดของไฟล์ที่ดึงข้อมูลในหน่วยไบต์ หากการพยายามดึงข้อมูลครั้งล่าสุดไม่สำเร็จ ค่านี้จะว่างเปล่า
- ปัญหา - ตารางแสดงจำนวนปัญหาการแยกวิเคราะห์ในเนื้อหาของไฟล์เมื่อดึงข้อมูลครั้งล่าสุด โดยข้อผิดพลาดจะทำให้ใช้กฎไม่ได้ แต่คำเตือนไม่ได้ป้องกันการใช้กฎ โปรดอ่านลักษณะการทำงานของ Google เมื่อมีข้อผิดพลาด robots.txt หากต้องการแก้ไขปัญหาการแยกวิเคราะห์ ให้ใช้โปรแกรมตรวจสอบ robots.txt
ดูเวอร์ชันที่ดึงข้อมูลล่าสุด
คุณดูเวอร์ชันที่ดึงข้อมูลล่าสุดของไฟล์ robots.txt ได้โดยคลิกที่ไฟล์นั้นจากรายการไฟล์ในรายงาน หากไฟล์ robots.txt มีข้อผิดพลาดหรือคำเตือน ระบบก็จะไฮไลต์ไว้ในเนื้อหาของไฟล์ที่แสดง คุณสามารถวนดูข้อผิดพลาดและคำเตือนไปมาได้โดยใช้แป้นลูกศร
ดูเวอร์ชันที่ดึงข้อมูลก่อนหน้านี้
หากต้องการดูคำขอดึงข้อมูลไฟล์ robots.txt ที่ระบุในช่วง 30 วันที่ผ่านมา ให้คลิกไฟล์จากรายการไฟล์ในรายงาน แล้วคลิกเวอร์ชัน หากต้องการดูเนื้อหาของไฟล์ในเวอร์ชันดังกล่าว ให้คลิกเวอร์ชันที่ต้องการ คำขอจะรวมอยู่ในประวัติก็ต่อเมื่อไฟล์ที่ดึงมาหรือผลการดึงข้อมูลแตกต่างจากคำขอดึงข้อมูลไฟล์ก่อนหน้า
หาก Google พบข้อผิดพลาดในการดึงข้อมูลในการพยายามดึงข้อมูลครั้งล่าสุด Google จะใช้เวอร์ชันที่ดึงข้อมูลสำเร็จล่าสุดซึ่งไม่มีข้อผิดพลาดเป็นเวลาสูงสุด 30 วัน
ขอให้ทำการ Crawl อีกครั้ง
คุณขอให้ทำการ Crawl ไฟล์ robots.txt อีกครั้งได้เมื่อแก้ไขข้อผิดพลาดหรือทําการเปลี่ยนแปลงที่สําคัญ
กรณีที่ควรขอให้ทำการ Crawl อีกครั้ง
โดยทั่วไปแล้วคุณไม่จำเป็นต้องส่งคำขอทำการ Crawl ไฟล์ robots.txt อีกครั้ง เนื่องจาก Google จะทำการ Crawl ไฟล์ robots.txt ซ้ำบ่อยครั้ง อย่างไรก็ตาม คุณอาจต้องการขอให้ทำการ Crawl ไฟล์ robots.txt อีกครั้งในกรณีต่อไปนี้
- คุณเปลี่ยนกฎ robots.txt ให้เลิกบล็อก URL ที่สำคัญบางรายการและต้องการให้ Google ทราบอย่างรวดเร็ว (โปรดทราบว่าการดำเนินการนี้ไม่ได้รับประกันว่าจะมีการ Crawl URL ที่เลิกบล็อกอีกครั้งโดยทันที)
- คุณแก้ไขข้อผิดพลาดในการดึงข้อมูลหรือข้อผิดพลาดร้ายแรงอื่นๆ แล้ว
วิธีขอให้ทำการ Crawl อีกครั้ง
หากต้องการขอให้ทำการ Crawl อีกครั้ง ให้เลือกไอคอนการตั้งค่าเพิ่มเติม ข้างไฟล์ในรายการไฟล์ robots แล้วคลิกขอให้ทำการ Crawl อีกครั้ง
เว็บไซต์ในบริการโฮสติ้งเว็บไซต์
หากเว็บไซต์โฮสต์อยู่ในบริการโฮสติ้งเว็บไซต์ การแก้ไขไฟล์ robots.txt อาจเป็นเรื่องยาก ในกรณีนี้ โปรดดูเอกสารประกอบของโฮสต์เว็บไซต์เกี่ยวกับวิธีบล็อกไม่ให้ Google ทำการ Crawl หรือจัดทำดัชนีหน้าเว็บหนึ่งๆ (โปรดทราบว่าผู้ใช้ส่วนใหญ่มักกังวลเกี่ยวกับการป้องกันไม่ให้ไฟล์ปรากฏใน Google Search มากกว่าที่ Google จะทำการ Crawl หากคุณกังวลในเรื่องนี้ โปรดค้นหาข้อมูลเกี่ยวกับการบล็อกหน้าเว็บจากเครื่องมือค้นหาในบริการโฮสติ้งของคุณ)
จะเกิดอะไรขึ้นเมื่อ Google ดึงข้อมูลหรืออ่าน robots.txt ไม่ได้
หากไม่พบไฟล์ robots.txt สำหรับโดเมนหรือโดเมนย่อย Google จะถือว่าสามารถทำการ Crawl URL ภายในโฮสต์นั้นได้
หาก Google พบไฟล์ robots.txt แต่ดึงข้อมูลไม่ได้ Google จะมีลักษณะการทำงานดังต่อไปนี้
- ในช่วง 12 ชั่วโมงแรก Google จะหยุดทำการ Crawl เว็บไซต์แต่ยังคงพยายามดึงข้อมูลไฟล์ robots.txt
- หาก Google ดึงข้อมูลเวอร์ชันใหม่ไม่ได้ ในอีก 30 วันข้างหน้า Google จะใช้เวอร์ชันที่ใช้งานได้ล่าสุดขณะที่ยังคงพยายามดึงข้อมูลเวอร์ชันใหม่ คุณสามารถดูเวอร์ชันที่ใช้งานได้ล่าสุดในประวัติเวอร์ชัน
- หากข้อผิดพลาดยังคงไม่ได้รับการแก้ไขหลังจากผ่านไป 30 วัน Google จะดำเนินการดังนี้
- หากเว็บไซต์พร้อมใช้งานสำหรับ Google ตามปกติ Google ก็จะทำงานเสมือนว่าไม่มีไฟล์ robots.txt (แต่ยังคงตรวจหาเวอร์ชันใหม่)
- หากเว็บไซต์มีปัญหาความพร้อมใช้งานตามปกติ Google จะหยุดทำการ Crawl เว็บไซต์ในขณะที่ยังขอไฟล์ robots.txt เป็นระยะๆ
หาก Google พบและดึงข้อมูลไฟล์ robots.txt ได้ Google จะอ่านไฟล์ทีละบรรทัด หากบรรทัดมีข้อผิดพลาดหรือแยกวิเคราะห์เป็นกฎ robots.txt ไม่ได้ ระบบจะข้ามบรรทัดนั้น หากไม่มีบรรทัดที่ถูกต้องในไฟล์ Google จะถือว่าไฟล์นี้เป็นไฟล์ robots.txt ที่ว่างเปล่า ซึ่งหมายความว่าไม่มีการประกาศกฎสำหรับเว็บไซต์ดังกล่าว
ตำแหน่งของไฟล์ robots.txt
คำศัพท์
- โปรโตคอล (เรียกอีกอย่างว่ารูปแบบ) คือ HTTP หรือ HTTPS
- โฮสต์คือทุกอย่างใน URL หลังโปรโตคอล (http:// หรือ https://) จนถึงเส้นทาง ดังนั้น โฮสต์ m.de.example.com จะมีโฮสต์ที่เป็นไปได้ 3 แบบ นั่นคือ m.de.example.com, de.example.com และ example.com โดยโฮสต์แต่ละแบบมีไฟล์ robots.txt ของตนเองได้
- ต้นทาง คือโปรโตคอล + โฮสต์ ดังนั้นจึงเป็น https://example.com/ หรือ https://m.example.co.es/
ตาม RFC 9309 ไฟล์ robots.txt ต้องอยู่ที่รูทของแต่ละชุดค่าผสมระหว่างโปรโตคอลและโฮสต์ของเว็บไซต์
- Search Console จะเลือกโฮสต์ 20 อันดับแรกโดยจัดเรียงตามอัตราการ Crawl รายงานอาจแสดงต้นทางสูงสุด 2 แห่งสำหรับแต่ละโดเมน ซึ่งหมายความว่าตารางจะแสดงได้สูงสุด 40 แถว หากคุณไม่พบ URL ของ robots.txt สำหรับโฮสต์แบบใดแบบหนึ่ง ให้สร้างพร็อพเพอร์ตี้โดเมนสำหรับโดเมนย่อยที่ขาดหายไป
- Search Console จะตรวจสอบ URL 2 รายการสำหรับแต่ละโฮสต์ ดังนี้
- http://<host>/robots.txt
- https://<host>/robots.txt
- หากมีการรายงานไฟล์ robots.txt ใน URL ที่ขอว่าไม่พบเป็นเวลา 30 วัน Search Console จะไม่แสดง URL ในรายงานนี้ แม้ว่า Google จะตรวจสอบ URL ในเบื้องหลังต่อไป สำหรับผลลัพธ์อื่นๆ รายงานจะแสดง URL ที่เลือก
สำหรับพร็อพเพอร์ตี้คำนำหน้า URL ที่ระดับโฮสต์ (เช่น https://example.com/) Search Console จะตรวจสอบเพียงต้นทางเดียวสำหรับพร็อพเพอร์ตี้ดังกล่าว กล่าวคือ สำหรับพร็อพเพอร์ตี้ https://example.com นั้น Search Console จะตรวจสอบเฉพาะ https://example.com/robots.txt ไม่ใช่ http://example.com/robots.txt หรือ https://m.example.com/robots.txt
งานทั่วไป
ดูไฟล์ robots.txt
หากต้องการเปิดไฟล์ robots.txt ที่แสดงอยู่ในรายงานนี้ ให้คลิกไฟล์ในรายการไฟล์ robots.txt หากต้องการเปิดไฟล์ในเบราว์เซอร์ ให้คลิกเปิดไฟล์ robots.txt ที่ทำงานอยู่
คุณสามารถเปิดไฟล์ robots.txt บนเว็บในเบราว์เซอร์ได้ ดู URL ที่ควรเข้าชมได้จากด้านล่าง
ไฟล์ robots.txt จะอยู่ที่รูทของโปรโตคอลและโดเมน หากต้องการระบุ URL ให้ตัดทุกอย่างที่อยู่หลังโฮสต์ (และพอร์ตที่ไม่บังคับ) ใน URL ของไฟล์ และเพิ่ม "/robots.txt" คุณสามารถไปที่ไฟล์ robots.txt ในเบราว์เซอร์ได้ หากมี ทั้งนี้ไฟล์ robots.txt ไม่ได้รับช่วงมาจากโดเมนย่อยหรือโดเมนหลัก และหน้าเว็บหนึ่งๆ อาจได้รับผลกระทบจากไฟล์ robots.txt ได้เพียงไฟล์เดียวเท่านั้น ตัวอย่างมีดังต่อไปนี้
URL ของไฟล์ | URL ของ robots.txt ที่อาจส่งผลกระทบต่อไฟล์นั้น |
---|---|
http://example.com/home | http://example.com/robots.txt |
https://m.de.example.com/some/page/here/mypage | https://m.de.example.com/robots.txt |
https://example.com?pageid=234#myanchor | https://example.com/robots.txt |
https://images.example.com/flowers/daffodil.png | https://images.example.com/robots.txt |
ดูว่าไฟล์ robots.txt ใดที่จะส่งผลกระทบต่อหน้าเว็บหรือรูปภาพ
วิธีค้นหา URL ของไฟล์ robots.txt ที่จะส่งผลกระทบต่อหน้าเว็บหรือรูปภาพ
- ค้นหา URL ที่ตรงกันทุกประการของหน้าเว็บหรือรูปภาพ สำหรับรูปภาพ ให้คลิกขวาในเบราว์เซอร์ Google Chrome แล้วเลือกคัดลอก URL รูปภาพ
- นำส่วนท้ายของ URL หลังโดเมนระดับบนสุด (เช่น .com, .org, .co.il) ออก และเพิ่ม /robots.txt ต่อท้าย ดังนั้นไฟล์ robots.txt สำหรับ https://images.example.com/flowers/daffodil.png จะเป็น https://images.example.com/robots.txt
- เปิด URL ในเบราว์เซอร์เพื่อตรวจสอบว่ามี URL นั้นอยู่ หากเบราว์เซอร์เปิดไฟล์ไม่ได้ แสดงว่าไม่มีไฟล์นั้นอยู่
ทดสอบว่า Google ถูกบล็อกโดย robots.txt หรือไม่
- หากต้องการทดสอบว่าไฟล์ robots.txt บล็อก URL หนึ่งๆ หรือไม่ คุณสามารถทดสอบความพร้อมใช้งานของ URL ด้วยเครื่องมือตรวจสอบ URL
- หากต้องการทดสอบกฎ robots.txt ที่เจาะจงกับไฟล์ที่ยังไม่ได้อยู่ในเว็บ หรือทดสอบกฎใหม่ คุณก็สามารถใช้เครื่องมือทดสอบ robots.txt ของบุคคลที่สาม
ข้อมูลเพิ่มเติม
- ไฟล์ robots.txt คืออะไร และนำมาใช้อย่างไร
- วิธีใช้ไฟล์ robots.txt