เกี่ยวกับ robots.txt

คำถามที่พบบ่อยเกี่ยวกับโรบ็อต

คำถามทั่วไปเกี่ยวกับโรบ็อต

คำถามเกี่ยวกับ Robots.txt

คำถามเกี่ยวกับเมตาแท็กของโรบ็อต

คำถามเกี่ยวกับส่วนหัว HTTP ของ X-Robots-Tag

หากมีคำถามที่เรายังไม่ได้ตอบ คุณสามารถโพสต์คำถามในฟอรัมความช่วยเหลือสำหรับผู้ดูแลเว็บเพื่อรับความช่วยเหลือเพิ่มเติม

คำถามทั่วไปเกี่ยวกับโรบ็อต

เว็บไซต์ของฉันต้องใช้ไฟล์ robots.txt ไหม

ไม่ เมื่อ Googlebot เข้าชมเว็บไซต์หนึ่ง เราจะขอสิทธิ์ในการรวบรวมข้อมูลโดยพยายามเรียกข้อมูลไฟล์ robots.txt ก่อน โดยทั่วไปจะมีการรวบรวมข้อมูลและจัดทำดัชนีของเว็บไซต์ที่ไม่มีไฟล์ robots.txt, เมตาแท็กของโรบ็อต หรือส่วนหัว HTTP ของ X-Robots-Tag ตามปกติ

ฉันควรใช้วิธีการใด

แล้วแต่กรณี พูดง่ายๆ ก็คือแต่ละวิธีการเหล่านี้มีข้อดีแตกต่างกันไป

  1. robots.txt: ใช้วิธีการนี้หากการรวบรวมข้อมูลเนื้อหาของคุณทำให้เกิดปัญหาในเซิร์ฟเวอร์ เช่น คุณอาจไม่ต้องการอนุญาตการรวบรวมข้อมูลสคริปต์ปฏิทินที่ไม่จำกัด คุณไม่ควรใช้ robots.txt เพื่อบล็อกเนื้อหาส่วนตัว (ใช้การตรวจสอบสิทธิ์ฝั่งเซิร์ฟเวอร์แทน) หรือจัดการการใช้รูปแบบบัญญัติ (ดูศูนย์ช่วยเหลือของเรา) หากคุณต้องการแน่ใจได้ว่าจะไม่มีการจัดทำดัชนี URL ให้ใช้เมตาแท็กของโรบ็อตหรือส่วนหัว HTTP ของ X-Robots-Tag แทน
  2. เมตาแท็กของโรบ็อต: ใช้วิธีการนี้หากคุณต้องการควบคุมการแสดงหน้า HTML แต่ละหน้าในผลการค้นหา (หรือดูแลไม่ให้มีการแสดงหน้าดังกล่าวในผลการค้นหา)
  3. ส่วนหัว HTTP ของ X-Robots-Tag: ใช้วิธีการนี้หากคุณต้องควบคุมการแสดงเนื้อหาที่ไม่ใช่ HTML ในผลการค้นหา (หรือดูแลไม่ให้มีการแสดงเนื้อหาดังกล่าวในผลการค้นหา)

ฉันจะใช้วิธีการเหล่านี้เพื่อนำไซต์ของผู้อื่นออกได้ไหม

ไม่ได้ วิธีการเหล่านี้ใช้ได้กับไซต์ที่คุณสามารถแก้ไขโค้ดหรือเพิ่มไฟล์ได้เท่านั้น หากต้องการนำเนื้อหาออกจากไซต์ของบุคคลที่สาม คุณต้องติดต่อผู้ดูแลเว็บเพื่อขอให้นำเนื้อหาออก

ฉันจะชะลอ Google จากการรวบรวมข้อมูลเว็บไซต์ของฉันได้อย่างไร

โดยทั่วไปคุณจะปรับเปลี่ยนการตั้งค่าอัตราการรวบรวมข้อมูลได้ในบัญชี Google Search Console

คำถามเกี่ยวกับ Robots.txt

ฉันใช้ robots.txt ไฟล์เดียวสำหรับหลายเว็บไซต์ ฉันจะใช้ URL แบบเต็มแทนเส้นทางแบบสัมพัทธ์ได้ไหม

ไม่ได้ คำสั่งในไฟล์ robots.txt (ยกเว้น "แผนผังไซต์:") จะใช้ได้กับเส้นทางแบบสัมพัทธ์เท่านั้น

ฉันจะวางไฟล์ robots.txt ในไดเรกทอรีย่อยได้ไหม

ไม่ได้ คุณต้องวางไฟล์ไว้ในไดเรกทอรีบนสุดของเว็บไซต์

ฉันต้องการบล็อกโฟลเดอร์ส่วนตัว ฉันจะป้องกันไม่ให้ผู้อื่นอ่านไฟล์ robots.txt ของฉันได้ไหม

ไม่ได้ ผู้ใช้ต่างๆ สามารถอ่านไฟล์ robots.txt ได้ หากไม่ต้องการเผยแพร่โฟลเดอร์หรือชื่อไฟล์ของเนื้อหาสู่สาธารณะ คุณต้องไม่ระบุเนื้อหาดังกล่าวในไฟล์ robots.txt เราไม่แนะนำให้แสดงไฟล์ robots.txt ต่างกันโดยอิงตาม User-agent หรือแอตทริบิวต์อื่นๆ

ฉันต้องใส่คำสั่ง allow เพื่ออนุญาตการรวบรวมข้อมูลไหม

ไม่ คุณไม่จำเป็นต้องเพิ่มคำสั่ง allow คำสั่ง allow ใช้เพื่อลบล้างคำสั่ง disallow ใน robots.txt ไฟล์เดียวกันเท่านั้น

จะเกิดอะไรขึ้นหากฉันมีข้อผิดพลาดในไฟล์ robots.txt หรือใช้คำสั่งที่ไม่รองรับ

โดยทั่วไปโปรแกรมรวบรวมข้อมูลในเว็บจะยืดหยุ่นมากและจะไม่ได้รับอิทธิพลจากข้อผิดพลาดเล็กๆ น้อยๆ ในไฟล์ robots.txt ปัญหาใหญ่ที่สุดที่อาจเกิดขึ้นคือโปรแกรมรวบรวมข้อมูลจะไม่สนใจคำสั่งที่ไม่ถูกต้อง/ไม่รองรับ อย่างไรก็ตาม โปรดทราบว่า Google ไม่สามารถคาดเดาวัตถุประสงค์ต่างๆ ได้เมื่อทำการตีความไฟล์ robots.txt เราจึงต้องตีความไฟล์ robots.txt ตามที่ดึงข้อมูลมา ซึ่งโดยปกติแล้วคุณสามารถแก้ปัญหาเหล่านั้นได้ง่ายๆ หากพบปัญหาในไฟล์ robots.txt

ฉันควรใช้โปรแกรมอะไรเพื่อสร้างไฟล์ robots.txt

คุณสามารถใช้โปรแกรมอะไรก็ได้ที่สร้างไฟล์ข้อความที่ถูกต้องได้ โปรแกรมทั่วไปที่ใช้สร้างไฟล์ robots.txt ได้แก่ Notepad, TextEdit, vi หรือ emacs ดูข้อมูลเพิ่มเติมเกี่ยวกับการสร้างไฟล์ robots.txt หลังจากสร้างไฟล์แล้ว ให้ตรวจสอบความถูกต้องโดยใช้โปรแกรมทดสอบ robots.txt

หากฉันบล็อกไม่ให้ Google รวบรวมข้อมูลหน้าเว็บโดยใช้คำสั่ง disallow ใน robots.txt หน้าเว็บจะหายไปจากผลการค้นหาไหม

การบล็อก Google ไม่ให้รวบรวมข้อมูลหน้าเว็บมีแนวโน้มที่จะทำให้หน้านั้นถูกลบออกจากดัชนีของ Google 

อย่างไรก็ตาม คำสั่ง Disallow ในไฟล์ robots.txt ไม่ได้รับประกันว่าหน้าเว็บจะไม่ปรากฏในผลการค้นหา เนื่องจาก Google ยังคงตัดสินว่าหน้าเว็บเกี่ยวข้องกับการค้นหาหรือไม่ตามข้อมูลภายนอกด้วย เช่น ลิงก์ขาเข้า หากต้องการบล็อกไม่ให้มีการจัดทำดัชนีหน้าเว็บอย่างชัดแจ้ง ให้ใช้เมตาแท็กของโรบ็อตหรือส่วนหัว HTTP ของ X-Robots-Tag noindex แทน ในกรณีนี้ คุณไม่ควรที่จะไม่อนุญาตหน้าเว็บในไฟล์ robots.txt เพราะต้องมีการรวบรวมหน้าเว็บเพื่อให้มองเห็นแท็กและทำตามคำสั่ง

จะใช้เวลานานเท่าไรกว่าที่การเปลี่ยนแปลงในไฟล์ robots.txt จะส่งผลต่อผลการค้นหาของฉัน

ก่อนอื่น คุณต้องรีเฟรชแคชของไฟล์ robots.txt (โดยทั่วไปเราจะแคชเนื้อหาไว้ถึง 1 วัน) แม้จะพบการเปลี่ยนแปลงแล้ว แต่การรวบรวมข้อมูลและการจัดทำดัชนีก็เป็นขั้นตอนที่ซับซ้อนซึ่งอาจต้องใช้เวลาพอสมควรสำหรับ URL แต่ละรายการ เราจึงไม่สามารถระบุลำดับเวลาที่แน่นอนได้ โปรดทราบด้วยว่า ถึงแม้ไฟล์ robots.txt จะไม่อนุญาตให้เข้าถึง URL หนึ่งๆ แต่ URL นั้นอาจยังปรากฏในผลการค้นหา แม้เราจะไม่สามารถรวบรวมข้อมูล หากต้องการเร่งรัดการลบหน้าเว็บที่คุณบล็อกไม่ให้ Google เข้าถึง โปรดส่งคำขอลบผ่าน Google Search Console

ฉันจะระงับการรวบรวมข้อมูลทั้งหมดของเว็บไซต์ของฉันชั่วคราวได้อย่างไร

คุณสามารถระงับการรวบรวมข้อมูลทั้งหมดชั่วคราวโดยแสดงรหัสผลลัพธ์ HTTP 503 สำหรับ URL ทั้งหมด รวมถึงไฟล์ robots.txt จะมีการลองใช้ไฟล์ robots.txt อีกครั้งเป็นระยะๆ จนกว่าจะเข้าถึงได้อีกครั้ง เราไม่แนะนำให้เปลี่ยนแปลงไฟล์ robots.txt เพื่อระงับการรวบรวมข้อมูล

เซิร์ฟเวอร์ของฉันไม่พิจารณาตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ ฉันจะไม่อนุญาตให้รวบรวมข้อมูลบางโฟลเดอร์เลยได้อย่างไร

คำสั่งในไฟล์ robots.txt จะพิจารณาตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ ในกรณีนี้ ขอแนะนำให้ตรวจสอบว่ามีการจัดทำดัชนี URL เพียงเวอร์ชันเดียวโดยใช้การใช้รูปแบบบัญญัติ วิธีการนี้ช่วยให้คุณสามารถลดความซับซ้อนของไฟล์ robots.txt หากทำไม่ได้ เราขอแนะนำให้คุณระบุค่าผสมชื่อโฟลเดอร์ที่พบบ่อย หรือย่อชื่อให้สั้นที่สุดเท่าที่จะทำได้ โดยใช้อักขระเพียงไม่กี่ตัวแรกแทนที่จะใช้ชื่อเต็ม เช่น แทนที่จะระบุการเรียงสับเปลี่ยนตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ทั้งหมดของ "/MyPrivateFolder" คุณอาจระบุการเรียงสับเปลี่ยนของ "/MyP" (หากคุณมั่นใจว่าไม่มี URL ที่รวบรวมข้อมูลได้อื่นๆ ที่ขึ้นต้นด้วยตัวอักษรดังกล่าว) หรือคุณอาจใช้เมตาแท็กของโรบ็อตหรือส่วนหัว HTTP ของ X-Robots-Tag แทน หากไม่กังวลเรื่องการรวบรวมข้อมูล

ฉันแสดงผล 403 "ต้องห้าม" สำหรับ URL ทั้งหมดที่มีอยู่ในไฟล์ robots.txt ทำไมจึงยังมีการรวบรวมข้อมูลไซต์อยู่

รหัสผลลัพธ์ HTTP 403 เช่นเดียวกับรหัสผลลัพธ์ HTTP 4xx ทั้งหมด เป็นสัญญาณว่าคุณไม่มีไฟล์ robots.txt ด้วยเหตุนี้ โปรแกรมรวบรวมข้อมูลจะเดาว่า โปรแกรมสามารถรวบรวมข้อมูล URL ทั้งหมดในเว็บไซต์ หากต้องการบล็อกการรวบรวมข้อมูลเว็บไซต์ ไฟล์ robots.txt ต้องแสดงผลตามปกติ (ด้วยรหัสผลลัพธ์ HTTP 200 "ตกลง") โดยมีคำสั่ง "disallow" ที่เหมาะสมในไฟล์

คำถามเกี่ยวกับเมตาแท็กของโรบ็อต

เมตาแท็กของโรบ็อตมาแทนไฟล์ robots.txt ใช่ไหม

ไม่ใช่ ไฟล์ robots.txt จะควบคุมว่าสามารถเข้าถึงหน้าใดได้บ้าง เมตาแท็กของโรบ็อตจะควบคุมว่าจะมีการจัดทำดัชนีหน้าเว็บหรือไม่ แต่ต้องมีการรวบรวมข้อมูลหน้าเว็บก่อนระบบจึงจะเห็นแท็กนี้ หากการรวบรวมหน้าเว็บมีปัญหา (เช่น หากหน้าเว็บทำให้เซิร์ฟเวอร์มีภาระงานสูง) คุณควรใช้ไฟล์ robots.txt หากต้องการทราบแค่ว่าหน้าเว็บจะแสดงในผลการค้นหาหรือไม่ คุณสามารถใช้เมตาแท็กของโรบ็อต

ฉันจะใช้เมตาแท็กของโรบ็อตเพื่อบล็อกส่วนหนึ่งของหน้าเว็บไม่ให้มีการจัดทำดัชนีได้ไหม

ไม่ได้ เมตาแท็กของโรบ็อตเป็นการตั้งค่าระดับหน้าเว็บ

ฉันจะใช้เมตาแท็กของโรบ็อตนอกส่วน <head> ได้ไหม

ไม่ได้ ขณะนี้เมตาแท็กของโรบ็อตต้องอยู่ในส่วน <head> ของหน้า

เมตาแท็กของโรบ็อตไม่อนุญาตการรวบรวมข้อมูลใช่ไหม

ไม่ใช่ แม้ว่าขณะนี้เมตาแท็กของโรบ็อตจะระบุว่า noindex เราก็จะต้องรวบรวมข้อมูล URL ดังกล่าวอีกครั้งเป็นระยะๆ เพื่อดูว่าเมตาแท็กมีการเปลี่ยนแปลงหรือไม่

เมตาแท็ก nofollow ของโรบ็อตต่างจากแอตทริบิวต์ลิงก์ rel="nofollow" อย่างไร

เมตาแท็ก nofollow ของโรบ็อตจะมีผลกับลิงก์ทั้งหมดในหน้าเว็บ แต่แอตทริบิวต์ลิงก์ rel="nofollow" จะมีผลกับเฉพาะบางลิงก์ในหน้าเว็บ ดูข้อมูลเพิ่มเติมเกี่ยวกับแอตทริบิวต์ลิงก์ rel="nofollow" ได้จากบทความในศูนย์ช่วยเหลือเรื่องสแปมที่ผู้ใช้สร้างและ rel="nofollow"

คำถามเกี่ยวกับส่วนหัว HTTP ของ X-Robots-Tag

ฉันจะตรวจสอบ X-Robots-Tag ของ URL ได้อย่างไร

วิธีง่ายๆ ในการดูส่วนหัวของเซิร์ฟเวอร์คือการใช้เครื่องมือตรวจสอบส่วนหัวของเซิร์ฟเวอร์แบบเว็บหรือใช้ฟีเจอร์ "โปรแกรม Googlebot จำลอง" ใน Google Search Console

ข้อมูลนี้มีประโยชน์ไหม
เราจะปรับปรุงได้อย่างไร