รายงานสถิติการรวบรวมข้อมูล

รายงานสถิติการรวบรวมข้อมูลจะแสดงสถิติเกี่ยวกับประวัติการรวบรวมข้อมูลของ Google ในเว็บไซต์ของคุณ ตัวอย่างเช่น จำนวนคำขอที่ส่งเข้ามา เซิร์ฟเวอร์มีการตอบสนองอย่างไรและเมื่อใด รวมทั้งปัญหาเกี่ยวกับความพร้อมใช้งานที่พบ คุณใช้รายงานนี้ได้เพื่อดูว่า Google พบปัญหาการแสดงหน้าเว็บเมื่อรวบรวมข้อมูลเว็บไซต์หรือไม่

รายงานนี้มีไว้สำหรับผู้ใช้ขั้นสูง หากเว็บไซต์ของคุณมีหน้าเว็บไม่ถึง 1,000 หน้า คุณไม่น่าจะต้องใช้รายงานนี้หรือกังวลเกี่ยวกับรายละเอียดการรวบรวมข้อมูลในระดับนี้แต่อย่างใด

รายงานนี้ใช้งานได้กับพร็อพเพอร์ตี้ระดับรูทเท่านั้น กล่าวคือ ต้องเป็นพร็อพเพอร์ตี้โดเมน (เช่น example.com หรือ m.example.com) หรือพร็อพเพอร์ตี้ที่มีคำนำหน้าเป็น URL ที่ระดับรูท (https://example.com, http://example.com, http://m.example.com)

เปิดรายงานสถิติการรวบรวมข้อมูล

C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training

คุณเข้าถึงรายงานสถิติการรวบรวมข้อมูลได้ใน Search Console โดยคลิก การตั้งค่า (การตั้งค่าพร็อพเพอร์ตี้) > สถิติการรวบรวมข้อมูล

เริ่มต้นใช้งาน

คุณควรทำความเข้าใจเกี่ยวกับข้อมูลต่อไปนี้ก่อนใช้รายงานนี้

เกี่ยวกับข้อมูล

  • URL ทั้งหมดที่แสดงและมีการนับเป็น URL จริงที่ Google ขอ ทั้งนี้ไม่มีการกำหนดข้อมูลให้แก่ Canonical URL เหมือนอย่างที่ทำในรายงานอื่นๆ บางส่วน
  • หาก URL มีการเปลี่ยนเส้นทางฝั่งเซิร์ฟเวอร์ คำขอต่างๆ ในเชนการเปลี่ยนเส้นทางจะนับเป็นแต่ละคำขอแยกกัน ดังนั้น หากหน้า 1 เปลี่ยนเส้นทางไปยังหน้า 2 ซึ่งเปลี่ยนเส้นทางไปยังหน้า 3 หาก Google ขอหน้า 1 คุณจะเห็นคำขอสำหรับหน้า 1 (แสดง 301/302) หน้า 2 (แสดง 301/302) และหน้า 3 (ควรจะแสดง 200) แยกกัน โปรดทราบว่าจะมีการแสดงเฉพาะหน้าในโดเมนปัจจุบันเท่านั้น การตอบกลับด้วยการเปลี่ยนเส้นทางมีไว้สำหรับประเภทไฟล์ "ไฟล์ประเภทอื่น" แต่จะไม่นับรวมการเปลี่ยนเส้นทางฝั่งไคลเอ็นต์
  • การรวบรวมข้อมูลที่มีการพิจารณาแต่ไม่ได้ดำเนินการเพราะมีการนับไฟล์ robots.txt ซึ่งไม่พร้อมใช้งานในผลรวมของการรวบรวมข้อมูล แต่รายงานอาจไม่มีรายละเอียดมากนักเกี่ยวกับการพยายามรวบรวมข้อมูลดังกล่าว ข้อมูลเพิ่มเติม
  • ทรัพยากรและขอบเขต:
    • ข้อมูลทั้งหมดจะจำกัดเฉพาะที่อยู่ในโดเมนที่เลือกในปัจจุบันเท่านั้น จะไม่แสดงคำขอที่ส่งไปยังโดเมนอื่นๆ ซึ่งรวมถึงคำขอทรัพยากรในหน้า (เช่น รูปภาพ) ที่โฮสต์นอกพร็อพเพอร์ตี้นี้ ดังนั้น หากหน้า example.com/mypage มีรูปภาพ google.com/img.png คำขอ google.com/img.png จะไม่แสดงในรายงานสถิติการรวบรวมข้อมูลสำหรับพร็อพเพอร์ตี้ example.com
    • ในทํานองเดียวกัน คำขอที่ส่งไปยังโดเมนย่อยระดับเดียวกัน (เช่น en.example และ de.example) จะไม่แสดง ดังนั้น หากคุณกําลังดูรายงานสถิติการรวบรวมข้อมูลสำหรับ en.example ก็จะไม่เห็นคำขอรูปภาพใน de.example
    • อย่างไรก็ตาม คำขอที่ส่งระหว่างโดเมนย่อยต่างๆ จะดูได้จากโดเมนระดับบนสุด ตัวอย่างเช่น หากดูข้อมูลสำหรับ example.com คุณจะเห็นคำขอทั้งหมดที่ส่งไปที่ example.com, en.example, de.example.com และโดเมนย่อยอื่นๆ ที่อยู่ในระดับต่ำกว่า example.com
    • ในทางกลับกัน หากหน้าในโดเมนอื่นใช้ทรัพยากรของพร็อพเพอร์ตี้ของคุณ คุณอาจเห็นคำขอรวบรวมข้อมูลที่เชื่อมโยงกับหน้าโฮสต์นั้น แต่จะไม่เห็นบริบทที่บ่งบอกว่าระบบกำลังรวบรวมข้อมูลทรัพยากรนั้นเพราะมีการใช้งานจากหน้าในโดเมนอื่น (กล่าวคือ จะไม่เห็นว่ามีการรวบรวมข้อมูลรูปภาพ example.com/imageX.png เนื่องจากรูปภาพรวมอยู่ในหน้า anotherexample.com/mypage)
    • ข้อมูลที่รวบรวมจะมีทั้งกรณีที่ใช้โปรโตคอล HTTP และ HTTPS แม้ว่าจะเป็นการรวบรวมสำหรับพร็อพเพอร์ตี้ที่มีคำนำหน้าเป็น URL ก็ตาม ซึ่งหมายความว่ารายงานสถิติการรวบรวมข้อมูลสำหรับ http://example.com จะรวมคำขอที่ส่งไปยัง http://example.com และ https://example.com ด้วย อย่างไรก็ตาม URL ตัวอย่างสำหรับพร็อพเพอร์ตี้ที่มีคำนำหน้าเป็น URL จะจำกัดเฉพาะโปรโตคอลที่กําหนดไว้สำหรับพร็อพเพอร์ตี้ (HTTP หรือ HTTPS)
ปัญหาที่ทราบแล้ว: ปัจจุบันรายงานสถิติการรวบรวมข้อมูลจะแสดงคำขอรวบรวมข้อมูลโดยส่วนใหญ่ แต่คำขอบางส่วนอาจไม่นับรวมด้วยเหตุผลหลายประการด้วยกัน เราคาดว่าเมื่อเวลาผ่านไป รายงานจะครอบคลุมมากขึ้นเพื่อรวมคำขอให้ได้มากที่สุดหรือทั้งหมด ด้วยเหตุนี้ ในระหว่างนี้คุณจึงอาจเห็นความแตกต่างเล็กน้อยระหว่างบันทึกคำขอของเว็บไซต์กับจำนวนที่รายงานที่นี่

การไปยังส่วนต่างๆ ของรายงาน

คลิกรายการใดก็ได้ในตารางเพื่อดูมุมมองโดยละเอียดของรายการนั้นๆ ซึ่งรวมถึงรายการ URL ตัวอย่าง คลิก URL เพื่อดูรายละเอียดของคำขอรวบรวมข้อมูลที่เฉพาะเจาะจง ตัวอย่างเช่น ในตารางที่แสดงการตอบกลับที่จัดกลุ่มตามประเภท ให้คลิกแถว HTML เพื่อดูข้อมูลเกี่ยวกับการรวบรวมข้อมูลแบบสรุปรวมของหน้า HTML ทั้งหมดที่รวบรวมจากเว็บไซต์ รวมถึงรายละเอียดต่างๆ ของ URL ที่เลือกไว้เป็นตัวอย่าง เช่น เวลาในการรวบรวมข้อมูล โค้ดตอบกลับ ขนาดการตอบกลับ เป็นต้น

โฮสต์และโดเมนย่อย

หากพร็อพเพอร์ตี้ของคุณอยู่ในระดับโดเมน (example.com, http://example.com, https://m.example.com) และประกอบด้วยโดเมนย่อยตั้งแต่ 2 โดเมนขึ้นไป (เช่น fr.example.com และ de.example.com) คุณจะเห็นข้อมูลของโดเมนระดับบนสุด ซึ่งรวมโดเมนย่อยทั้งหมด หรือมีขอบเขตเป็นโดเมนย่อยโดเมนเดียวเท่านั้น

หากต้องการดูรายงานที่มีขอบเขตเป็นโดเมนย่อยที่เฉพาะเจาะจง ให้คลิกโดเมนย่อยนั้นในรายการโฮสต์ในหน้า Landing Page ของโดเมนระดับบนสุด ระบบจะแสดงเฉพาะโดเมนย่อย 20 อันดับแรกที่มีการเข้าชมสูงสุดในช่วง 90 วันที่ผ่านมาเท่านั้น

URL ตัวอย่าง

คุณคลิกรายการประเภทข้อมูลรายการใดก็ได้ที่จัดกลุ่มไว้ (การตอบกลับ ประเภทไฟล์ วัตถุประสงค์ ประเภท Googlebot) เพื่อดูรายการ URL ตัวอย่างของประเภทนั้นๆ

URL ตัวอย่างไม่ได้ครอบคลุมข้อมูลทั้งหมด แต่เป็นตัวอย่างที่เป็นตัวแทนข้อมูลเท่านั้น หากไม่เห็น URL ใดแสดงอยู่ ก็ไม่ได้หมายความว่าเราไม่ได้ขอ URL นั้น อาจมีการถ่วงน้ำหนักเพื่อหาจำนวนตัวอย่างในแต่ละวัน คุณจึงอาจพบว่าคำขอบางประเภทมีตัวอย่างมากกว่าประเภทอื่น คำขอทุกประเภทควรจะมีจำนวนตัวอย่างพอๆ กันเมื่อเวลาผ่านไป

คำขอรวบรวมข้อมูลทั้งหมด

จำนวนรวมของคำขอรวบรวมข้อมูลที่ส่งมาสำหรับ URL ในเว็บไซต์ ไม่ว่าจะสำเร็จหรือไม่ก็ตาม โดยนับรวมคำขอทรัพยากรที่หน้าเว็บใช้ในกรณีที่ทรัพยากรอยู่ในเว็บไซต์ของคุณ จะไม่นับรวมคำขอทรัพยากรที่โฮสต์ภายนอกเว็บไซต์ดังกล่าว คำขอที่ซ้ำสำหรับ URL เดียวกันจะมีการนับแต่ละรายการด้วย หากไฟล์ robots.txt ของคุณใช้งานได้ไม่เพียงพอ อาจเป็นเพราะมีการนับรวมการดึงข้อมูลที่อาจเกิดขึ้น

คําขอที่ไม่สําเร็จที่ถูกนับรวมมีดังต่อไปนี้

ขนาดการดาวน์โหลดทั้งหมด

จำนวนไบต์ทั้งหมดที่ดาวน์โหลดจากเว็บไซต์ระหว่างการรวบรวมข้อมูลในระยะเวลาที่ระบุ หาก Google แคชทรัพยากรของหน้าเว็บที่มีหลายหน้าใช้อยู่ จะมีการขอทรัพยากรนั้นในครั้งแรกครั้งเดียว (เมื่อแคชทรัพยากรนั้น)

เวลาในการตอบกลับโดยเฉลี่ย

เวลาในการตอบกลับโดยเฉลี่ยสำหรับทรัพยากรทั้งหมดที่ดึงมาจากเว็บไซต์ในระยะเวลาที่ระบุ ทรัพยากรแต่ละรายการที่หน้าเว็บลิงก์อยู่จะนับเป็นการตอบกลับครั้งหนึ่งๆ แยกต่างหาก

สถานะโฮสต์

สถานะโฮสต์เป็นการอธิบายว่า Google พบปัญหาด้านความพร้อมใช้งานเมื่อพยายามรวบรวมข้อมูลเว็บไซต์หรือไม่ สถานะอาจมีค่าใดค่าหนึ่งต่อไปนี้

  • No significant availability issues icon
    Google ไม่พบปัญหาสำคัญเกี่ยวกับความพร้อมใช้งานในการรวบรวมข้อมูลในเว็บไซต์ในช่วง 90 วันที่ผ่านมา เยี่ยมมาก คุณไม่ต้องทำสิ่งอื่นใดที่นี่
  • Some availability issues, but not recently
    Google พบปัญหาสำคัญเกี่ยวกับความพร้อมใช้งานในการรวบรวมข้อมูลอย่างน้อย 1 รายการในช่วง 90 วันที่ผ่านมาในเว็บไซต์ แต่ปัญหานี้เกิดขึ้นมานานกว่า 1 สัปดาห์แล้ว ข้อผิดพลาดนี้อาจเป็นปัญหาที่เกิดขึ้นชั่วคราว หรือปัญหาอาจได้รับการแก้ไขไปแล้วก็ได้ คุณควรตรวจสอบตารางการตอบกลับเพื่อดูว่าปัญหาคืออะไรและตัดสินใจว่าจะต้องดําเนินการใดๆ หรือไม่
  • Recent availability issue
    Google พบปัญหาสำคัญเกี่ยวกับความพร้อมใช้งานในการรวบรวมข้อมูลอย่างน้อย 1 รายการในสัปดาห์ที่ผ่านมาในเว็บไซต์ เนื่องจากข้อผิดพลาดนี้เพิ่งเกิดขึ้น คุณควรจะพยายามตรวจดูว่าปัญหานี้เป็นปัญหาที่เกิดขึ้นซ้ำหรือไม่ ให้ตรวจสอบตารางการตอบกลับเพื่อดูว่าปัญหาคืออะไรและตัดสินใจว่าต้องดำเนินการใดๆ หรือไม่
สิ่งที่ควรตรวจสอบ

ตามหลักการแล้ว สถานะโฮสต์ควรเป็นสีเขียว หากสถานะความพร้อมใช้งานเป็นสีแดง ให้คลิกเพื่อดูรายละเอียดความพร้อมใช้งานของ robots.txt, การแปลง DNS และการเชื่อมต่อโฮสต์

รายละเอียดสถานะโฮสต์

สถานะความพร้อมใช้งานของโฮสต์จะได้รับการประเมินในหมวดหมู่ต่อไปนี้ ข้อผิดพลาดสำคัญในหมวดหมู่ใดก็ตามอาจทำให้สถานะความพร้อมใช้งานด้อยลงได้ คลิกหมวดหมู่ในรายงานเพื่อดูรายละเอียดเพิ่มเติม

สำหรับแต่ละหมวดหมู่ คุณจะเห็นแผนภูมิของข้อมูลในการรวบรวมข้อมูลสำหรับระยะเวลานั้นๆ แผนภูมินี้มีเส้นประสีแดง หากเมตริกสูงกว่าเส้นประสำหรับหมวดหมู่นี้ (เช่น หากคำขอมีการแปลง DNS ที่ไม่สำเร็จเกิน 5% ในวันหนึ่งๆ) จะถือว่าเป็นปัญหาในหมวดหมู่นั้น และสถานะจะสะท้อนให้เห็นการอัปเดตล่าสุดของปัญหาล่าสุด

  • การดึงข้อมูล robots.txt
    กราฟนี้แสดงอัตราความล้มเหลวในการขอ robots.txt ระหว่างการรวบรวมข้อมูล Google ขอไฟล์นี้อยู่บ่อยๆ และหากไม่ได้รับไฟล์ที่ถูกต้องกลับมา (อาจเป็นไฟล์ที่มีข้อมูลหรือว่างเปล่าก็ได้) หรือได้รับการตอบกลับ 404 (ไม่มีไฟล์อยู่) Google จะรวบรวมข้อมูลเว็บไซต์ช้าลงหรือหยุดรวบรวมจนกว่าจะได้รับการตอบกลับจาก robots.txt ที่ยอมรับได้ (ดูรายละเอียดที่ด้านล่าง)
  • การแปลง DNS
    กราฟนี้แสดงเวลาที่เซิร์ฟเวอร์ DNS ไม่รู้จักชื่อโฮสต์ของคุณหรือไม่ตอบสนองระหว่างการรวบรวมข้อมูล หากคุณเห็นข้อผิดพลาด โปรดสอบถามผู้รับจดทะเบียนให้แน่ใจว่าเว็บไซต์มีการตั้งค่าอย่างถูกต้อง และเซิร์ฟเวอร์เชื่อมต่อกับอินเทอร์เน็ตอยู่
  • การเชื่อมต่อของเซิร์ฟเวอร์
    กราฟนี้แสดงเวลาที่เซิร์ฟเวอร์ของคุณไม่ตอบสนองหรือไม่ให้การตอบกลับโดยสมบูรณ์สำหรับ URL หนึ่งๆ ระหว่างการรวบรวมข้อมูล ดูข้อมูลการแก้ไขข้อผิดพลาดเหล่านี้ในข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์
รายละเอียดเพิ่มเติมเกี่ยวกับความพร้อมใช้งานของ robots.txt

นี่เป็นคำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับวิธีที่ Google ตรวจสอบ (และอาศัย) ไฟล์ robots.txt เมื่อรวบรวมข้อมูลเว็บไซต์

เว็บไซต์ของคุณไม่จำเป็นต้องมีไฟล์ robots.txt แต่ต้องมีการตอบกลับที่สำเร็จ (ตามที่ระบุด้านล่าง) เมื่อระบบขอไฟล์นี้ มิเช่นนั้น Google อาจหยุดรวบรวมข้อมูลเว็บไซต์

  • การตอบกลับของ robots.txt ที่สำเร็จ
  • รายการต่อไปนี้ถือว่าเป็นการตอบกลับที่สำเร็จ
    • HTTP 200 และไฟล์ robots.txt (ไฟล์นี้อาจเป็นไฟล์ที่ถูกต้อง ไม่ถูกต้อง หรือว่างเปล่าก็ได้) หากไฟล์มีข้อผิดพลาดด้านไวยากรณ์ Google จะยังคงถือว่าการขอสำเร็จ แม้ว่าอาจเพิกเฉยต่อกฎที่มีข้อผิดพลาดด้านไวยากรณ์ก็ตาม
    • HTTP 403/404/410 (ไม่มีไฟล์อยู่) เว็บไซต์ไม่จำเป็นต้องมีไฟล์ robots.txt
  • การตอบกลับของ robots.txt ไม่สำเร็จ
    • HTTP 429/5XX (ปัญหาการเชื่อมต่อ)

ต่อไปนี้เป็นวิธีที่ Google ขอและใช้ไฟล์ robots.txt เมื่อรวบรวมข้อมูลเว็บไซต์

  1. ก่อนทำการ Crawl เว็บไซต์ Google จะตรวจสอบว่ามีคำขอ robots.txt ที่สำเร็จเมื่อเร็วๆ นี้หรือไม่ (มีอายุไม่เกิน 24 ชั่วโมง)
  2. หากได้รับการตอบกลับที่สําเร็จจาก robots.txt ไม่ถึง 24 ชั่วโมง Google จะใช้ไฟล์ robots.txt นั้นเมื่อทำการ Crawl เว็บไซต์ (อย่าลืมว่าข้อผิดพลาด 404 Not Found นั้นเป็นการตอบกลับที่สําเร็จ และหมายถึงไม่มีไฟล์ robots.txt ซึ่งหมายความว่า Google ทำการ Crawl URL ในเว็บไซต์ได้)
  3. หากการตอบกลับล่าสุดไม่สําเร็จหรือมีอายุเกิน 24 ชั่วโมง Google จะขอไฟล์ robots.txt โดยมีรายละเอียดดังนี้
    • หากการขอสำเร็จ การรวบรวมข้อมูลจะเริ่มขึ้นได้
    • หากไม่สําเร็จ สิ่งที่จะเกิดขึ้นมีดังนี้
      • ในช่วง 12 ชั่วโมงแรก Google จะหยุดทำการ Crawl เว็บไซต์ แต่จะขอไฟล์ robots.txt ต่อไป
      • ตั้งแต่ 12 ชั่วโมงถึง 30 วัน Google จะใช้ไฟล์ robots.txt ล่าสุดที่ดึงมาได้สําเร็จ ในขณะที่ยังคงขอไฟล์ robots.txt
      • หลังจากผ่านไป 30 วัน
        • หากหน้าแรกของเว็บไซต์พร้อมใช้งาน Google จะทําหน้าที่เหมือนไม่มีไฟล์ robots.txt และทำการ Crawl โดยไม่มีข้อจํากัด
        • หากหน้าแรกของเว็บไซต์ไม่พร้อมใช้งาน Google จะหยุดทำการ Crawl เว็บไซต์
        • ไม่ว่าจะเป็นกรณีใด Google จะส่งคําขอไฟล์ robots.txt เป็นระยะๆ ต่อไป
การรวบรวมข้อมูลที่ถูกละทิ้งเนื่องจากไฟล์ robots.txt ไม่พร้อมใช้งานจะนับรวมในผลรวมของการ Crawl ด้วย อย่างไรก็ตาม การรวบรวมข้อมูลเหล่านี้ไม่ได้เกิดขึ้นจริง ดังนั้นรายงานการจัดกลุ่มบางประเภท (การรวบรวมข้อมูลตามวัตถุประสงค์ การรวบรวมข้อมูลตามการตอบสนอง และอื่นๆ) จะไม่แสดงการรวบรวมข้อมูลเหล่านั้น หรืออาจมีรายละเอียดที่จำกัด

การตอบกลับในการรวบรวมข้อมูล

ตารางนี้แสดงการตอบกลับที่ Google ได้รับเมื่อรวบรวมข้อมูลเว็บไซต์ ซึ่งจัดกลุ่มตามประเภทการตอบกลับ โดยคิดเป็นเปอร์เซ็นต์ของการตอบกลับทั้งหมดในการรวบรวมข้อมูล ข้อมูลจะอิงตามจำนวนคำขอทั้งหมด ไม่ใช่ตาม URL ดังนั้นหาก Google ขอ URL ใดซ้ำ 2 ครั้งและได้รับข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ (500) ในครั้งแรก และได้รับการตอบกลับ OK (200) ในครั้งที่ 2 จะถือว่าเป็นการตอบกลับที่มีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ 50% และไม่มีปัญหา 50%

สิ่งที่ควรตรวจสอบ
การตอบกลับส่วนใหญ่ควรเป็น 200 หรือการตอบกลับที่ "ดี" ประเภทอื่นๆ ยกเว้นกรณีที่คุณกำลังจัดระเบียบเว็บไซต์ใหม่หรือย้ายเว็บไซต์ ดูวิธีจัดการโค้ดตอบกลับแบบอื่นๆ ในรายการด้านล่าง

 

โค้ดตอบกลับที่พบบ่อยรวมทั้งวิธีจัดการมีดังนี้

โค้ดตอบกลับที่ดี

หน้าเว็บเหล่านี้ใช้งานได้ดีและไม่ก่อให้เกิดปัญหาใดๆ

  • OK (200): ในกรณีปกติ การตอบกลับส่วนใหญ่ควรเป็นการตอบกลับประเภท 200
  • ย้ายถาวร (301): หน้าเว็บตอบกลับด้วย HTTP 301 หรือ 308 (ย้ายถาวร) ซึ่งอาจเป็นสิ่งที่คุณต้องการก็ได้
  • ย้ายชั่วคราว (302): หน้าเว็บตอบกลับด้วย HTTP 302 หรือ 307 (ย้ายชั่วคราว) ซึ่งอาจเป็นสิ่งที่คุณต้องการก็ได้ หากมีการย้ายหน้านี้อย่างถาวร ให้เปลี่ยนเป็น 301
  • ย้ายแล้ว (อื่นๆ): Meta Refresh
  • ไม่มีการแก้ไข (304): หน้าเว็บไม่มีการเปลี่ยนแปลงนับตั้งแต่การขอทำการ Crawl ครั้งล่าสุด

โค้ดตอบกลับที่อาจจะดี

ถึงแม้การตอบกลับเหล่านี้จะเป็นการตอบกลับที่ดี แต่คุณควรตรวจสอบว่าเป็นสิ่งที่ต้องการจริงๆ

  • ข้อผิดพลาดไม่พบ (404) อาจเกิดจากลิงก์เสียภายในเว็บไซต์หรือนอกเว็บไซต์ของคุณก็ได้ การแก้ไขข้อผิดพลาด 404 ทั้งหมดในเว็บไซต์ของคุณนั้นเป็นไปไม่ได้ ไม่คุ้มค่า หรือแม้กระทั่งไม่น่าทำ และการแสดง 404 กลับมานั้นมักเป็นเรื่องที่ถูกต้องอยู่แล้ว (เช่น หากหน้านั้นไม่มีอีกต่อไปแล้วจริงและไม่มีการนำหน้าอื่นมาใช้แทน) ดูว่าควรแก้ไขข้อผิดพลาด 404 หรือไม่ หรือแก้อย่างไร

โค้ดตอบกลับไม่ถูกต้อง

คุณควรแก้ไขหน้าที่แสดงข้อผิดพลาดเหล่านี้เพื่อปรับปรุงการรวบรวมข้อมูล

  • robots.txt ไม่พร้อมใช้งาน: หากไฟล์ robots.txt ยังคงไม่พร้อมใช้งานเป็นเวลา 1 วัน Google จะหยุดรวบรวมข้อมูลชั่วคราวจนกว่าจะได้รับการตอบกลับที่ยอมรับได้เมื่อขอ robots.txt โปรดอย่าปิดบัง robots.txt จริงไม่ให้ Google เห็นหรือเปลี่ยนแปลงหน้า robots.txt ตาม User Agent
    การตอบกลับนี้ไม่เหมือนกับการแสดงข้อความ "ไม่พบ (404)" สําหรับไฟล์ robots.txt ซึ่งถือว่าเป็นการตอบกลับที่ดี ดูรายละเอียดเพิ่มเติมเกี่ยวกับ robots.txt
  • ไม่ได้รับอนุญาต (401/407): คุณควรบล็อกหน้าเว็บเหล่านี้ไม่ให้มีการรวบรวมข้อมูลโดยใช้ robots.txt หรือตัดสินใจว่าควรจะเลิกบล็อกหรือไม่ หากหน้าเหล่านี้ไม่มีข้อมูลที่รักษาความปลอดภัยและคุณต้องการให้รวบรวมข้อมูลในหน้า คุณอาจพิจารณาย้ายข้อมูลไปยังหน้าเว็บที่ไม่มีการรักษาความปลอดภัย หรืออนุญาตให้ Googlebot เข้าถึงได้โดยไม่ต้องเข้าสู่ระบบ (แม้จะได้รับคำเตือนว่าอาจมีการปลอมแปลงเป็น Googlebot ก็ตาม ดังนั้นการอนุญาตให้ Googlebot เข้าถึงได้จะเป็นการนำการรักษาความปลอดภัยออกจากหน้าเว็บอย่างแท้จริง)
  • ข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ (5XX): ข้อผิดพลาดเหล่านี้จะทำให้ระบบแสดงคำเตือนเกี่ยวกับความพร้อมใช้งาน ควรแก้ไขข้อผิดพลาดดังกล่าวหากทำได้ แผนภูมิภาพขนาดย่อนี้แสดงเวลาโดยประมาณที่เกิดข้อผิดพลาดเหล่านี้ขึ้น คลิกเพื่อดูรายละเอียดเพิ่มเติมและเวลาที่แน่นอน ตรวจสอบให้ชัดเจนว่าปัญหาเหล่านี้เกิดขึ้นชั่วคราวหรือแสดงให้เห็นข้อผิดพลาดด้านความพร้อมใช้งานที่อยู่ลึกลงไปในเว็บไซต์ของคุณ หาก Google รวบรวมข้อมูลเว็บไซต์มากเกินไป คุณจะขอให้ใช้อัตราการรวบรวมข้อมูลที่ต่ำลงได้ หากเหตุการณ์นี้บ่งชี้ว่ามีปัญหาด้านความพร้อมใช้งานที่ร้ายแรง ให้อ่านเกี่ยวกับการรวบรวมข้อมูลที่เพิ่มสูงขึ้นมากอย่างฉับพลัน ดูข้อมูลการแก้ไขข้อผิดพลาดเหล่านี้ในข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์
  • ข้อผิดพลาดอื่นๆ ของไคลเอ็นต์ (4XX): ข้อผิดพลาด 4XX (ฝั่งไคลเอ็นต์) แบบอื่นที่ไม่ได้ระบุไว้ที่นี่ ทางที่ดีคือแก้ไขปัญหาเหล่านี้เสีย
  • DNS ไม่ตอบสนอง: เซิร์ฟเวอร์ DNS ของคุณไม่ตอบสนองต่อคำขอ URL ในเว็บไซต์
  • ข้อผิดพลาด DNS: ข้อผิดพลาดเกี่ยวกับ DNS อีกแบบหนึ่งที่ไม่ได้ระบุไว้
  • ข้อผิดพลาดในการดึงข้อมูล: ดึงข้อมูลจากหน้าเว็บไม่ได้เนื่องจากหมายเลขพอร์ตไม่ถูกต้อง ที่อยู่ IP ไม่ถูกต้อง หรือแยกวิเคราะห์การตอบกลับไม่ได้
  • เข้าถึงหน้าเว็บไม่ได้: ข้อผิดพลาดอื่นในการดึงข้อมูลหน้าเว็บที่คำขอไม่เคยไปถึงเซิร์ฟเวอร์เลย เนื่องจากคำขอเหล่านี้ส่งไม่ถึงเซิร์ฟเวอร์ จึงไม่ปรากฏในบันทึกของคุณ
  • หน้าเว็บหมดเวลา: การขอหน้าเว็บหมดเวลา
  • ข้อผิดพลาดในการเปลี่ยนเส้นทาง: ข้อผิดพลาดในการขอเปลี่ยนเส้นทางแบบหนึ่ง เช่น การเปลี่ยนเส้นทางหลายครั้งเกินไป การเปลี่ยนเส้นทางที่ว่างเปล่า หรือการเปลี่ยนเส้นทางที่วนเป็นวงกลม
  • ข้อผิดพลาดอื่นๆ: ข้อผิดพลาดอื่นที่จัดลงในหมวดหมู่ใดๆ ด้านบนไม่ได้

ประเภทไฟล์ที่มีการรวบรวมข้อมูล

ประเภทไฟล์ที่แสดงกลับมาแยกตามคำขอ ค่าเปอร์เซ็นต์สำหรับแต่ละประเภทคือเปอร์เซ็นต์การตอบกลับของประเภทนั้นๆ ไม่ใช่เปอร์เซ็นต์ของจำนวนไบต์ที่ดึงขึ้นมาของประเภทนั้นๆ

ค่าประเภทไฟล์ที่เป็นไปได้มีดังนี้

  • HTML
  • รูปภาพ
  • วิดีโอ - หนึ่งในรูปแบบวิดีโอที่รองรับ
  • JavaScript
  • CSS
  • PDF
  • XML อื่นๆ - ไฟล์ XML ที่ไม่มี RSS, KML หรือรูปแบบอื่นที่สร้างจาก XML
  • JSON
  • การเผยแพร่ - ฟีด RSS หรือ Atom
  • เสียง
  • ข้อมูลทางภูมิศาสตร์ - KML หรือข้อมูลทางภูมิศาสตร์อื่นๆ
  • ไฟล์ประเภทอื่น - ไม่มีการระบุไฟล์ประเภทอื่นที่นี่ การเปลี่ยนเส้นทางจะรวมอยู่ในการจัดกลุ่มนี้ด้วย
  • ไม่รู้จัก (ไม่สำเร็จ) - หากคำขอไม่ประสบความสำเร็จ แสดงว่าระบบไม่รู้จักไฟล์ประเภทนั้น
สิ่งที่ควรตรวจสอบ
หากพบปัญหาด้านความพร้อมใช้งานหรืออัตราการตอบกลับที่ช้า ให้ดูตารางนี้เพื่อทำความเข้าใจเกี่ยวกับประเภททรัพยากรที่ Google กําลังรวบรวมข้อมูลและสาเหตุที่อาจทำให้การรวบรวมข้อมูลช้าลง Google กำลังขอภาพขนาดเล็กจำนวนมากซึ่งควรจะถูกบล็อกใช่ไหม Google กำลังขอทรัพยากรที่โฮสต์ในเว็บไซต์อื่นซึ่งมีการตอบสนองน้อยกว่าใช่ไหม คลิกไฟล์ประเภทต่างๆ เพื่อดูแผนภูมิเวลาตอบกลับโดยเฉลี่ยแยกตามวันที่และจำนวนคำขอแยกตามวันที่ เพื่อดูว่าการเพิ่มขึ้นมากอย่างฉับพลันของคำขอที่มีเวลาตอบกลับช้าในประเภทนั้นๆ สอดคล้องกับการเพิ่มขึ้นมากอย่างฉับพลันในด้านความช้าหรือความไม่พร้อมใช้งานโดยทั่วไปหรือไม่

วัตถุประสงค์ของการรวบรวมข้อมูล

  • เพิ่งค้นพบ: Google ไม่เคยรวบรวมข้อมูลจาก URL ที่ขอนั้นมาก่อน
  • รีเฟรช: การรวบรวมข้อมูลจากหน้าที่เคยรวบรวมแล้วอีกครั้ง

หากมีหน้าเว็บที่เปลี่ยนแปลงอย่างรวดเร็วและไม่มีการรวบรวมข้อมูลซ้ำบ่อยพอ ให้ตรวจสอบว่าหน้านั้นอยู่ในแผนผังเว็บไซต์แล้ว สำหรับหน้าเว็บที่มีการอัปเดตไม่เร็วเท่า คุณอาจต้องขอให้มีการรวบรวมข้อมูลซ้ำอย่างเฉพาะเจาะจง หากมีการเพิ่มเนื้อหาใหม่จำนวนมากหรือส่งแผนผังเว็บไซต์เมื่อเร็วๆ นี้ ตามหลักการแล้วคุณควรจะเห็นว่าการรวบรวมข้อมูลที่เพิ่งค้นพบในเว็บไซต์เพิ่มขึ้นมากอย่างฉับพลัน

ประเภท Googlebot

ประเภทของ User Agent ที่ใช้เพื่อสร้างคำขอรวบรวมข้อมูล Google มี User Agent จำนวนหนึ่งที่ทำการ Crawl ด้วยเหตุผลต่างอื่นและมีลักษณะการทำงานที่ต่างกัน

ค่าประเภท Googlebot ที่เป็นไปได้มีดังนี้

  • สมาร์ทโฟน: Googlebot สำหรับสมาร์ทโฟน
  • เดสก์ท็อป: Googlebot สำหรับเดสก์ท็อป
  • รูปภาพ: Googlebot สำหรับรูปภาพ หากรูปภาพโหลดแบบทรัพยากรหน้าเว็บ การนับประเภท Googlebot จะนับเป็นการโหลดทรัพยากรหน้าเว็บ ไม่ใช่รูปภาพ
  • วิดีโอ: Googlebot สำหรับวิดีโอ หากวิดีโอโหลดแบบทรัพยากรหน้าเว็บ การนับประเภท Googlebot จะนับเป็นการโหลดทรัพยากรของหน้าเว็บ ไม่ใช่วิดีโอ
  • การโหลดทรัพยากรหน้าเว็บ: การดึงทรัพยากรที่หน้าเว็บใช้โดยเป็นการดึงสำรอง เมื่อรวบรวมข้อมูลหน้าเว็บนั้น Google จะดึงทรัพยากรที่ลิงก์ไว้ซึ่งมีความสำคัญ เช่น รูปภาพหรือไฟล์ CSS เพื่อแสดงผลหน้าเว็บก่อนที่จะพยายามจัดทำดัชนี นี่คือ User Agent ที่สร้างคำขอทรัพยากรเหล่านี้
  • AdsBot: หนึ่งในโปรแกรมรวบรวมข้อมูล AdsBot หากคุณพบว่าคำขอเหล่านี้เพิ่มสูงขึ้นมากอย่างฉับพลัน ก็มีแนวโน้มว่าคุณเพิ่งสร้างเป้าหมายใหม่ขึ้นมาหลายรายการสำหรับโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกในเว็บไซต์ โปรดดูทำไมอัตราการรวบรวมข้อมูลจึงพุ่งสูงขึ้น AdsBot รวบรวมข้อมูลจาก URL ทุก 2 สัปดาห์
  • StoreBot: โปรแกรมรวบรวมข้อมูลเกี่ยวกับการเลือกซื้อผลิตภัณฑ์
  • Agent ประเภทอื่นๆ: Crawler อื่นของ Google ที่ไม่ได้ระบุไว้ที่นี่

หากการ Crawl เพิ่มสูงขึ้นมากอย่างฉับพลัน ให้ตรวจสอบประเภท User Agent หากดูเหมือนว่าการเพิ่มสูงขึ้นอย่างฉับพลันนั้นเกิดจาก Crawler ของ AdsBot โปรดดูทำไมอัตราการ Crawl จึงพุ่งสูงขึ้น

การแก้ปัญหา

อัตราการรวบรวมข้อมูลสูงเกินไป

Googlebot มีอัลกอริทึมเพื่อป้องกันไม่ให้เว็บไซต์ทำงานหนักเกินไปในระหว่างการรวบรวมข้อมูล อย่างไรก็ตาม หากต้องจำกัดอัตราการรวบรวมข้อมูลไม่ว่าด้วยเหตุผลใด โปรดดูวิธีการที่นี่

ทำไมอัตราการรวบรวมข้อมูลจึงพุ่งสูงขึ้น

หากคุณใส่ข้อมูลใหม่จำนวนมากหรือมีข้อมูลที่มีประโยชน์จริงๆ ในเว็บไซต์ ก็อาจมีการรวบรวมข้อมูลในเว็บไซต์บ่อยกว่าที่คุณต้องการเล็กน้อย เช่น

  • คุณเลิกบล็อกการรวบรวมข้อมูลในพื้นที่ขนาดใหญ่ของเว็บไซต์
  • คุณเพิ่มส่วนใหม่ที่มีขนาดใหญ่ในเว็บไซต์
  • คุณเพิ่มเป้าหมายใหม่จำนวนมากสำหรับโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกโดยเพิ่มฟีดหน้าเว็บหรือกฎ URL_Equals ใหม่

หากระบบกำลังทำการ Crawl เว็บไซต์ของคุณเป็นจำนวนมากจนเว็บไซต์มีปัญหาด้านความพร้อมให้บริการ เราแนะนำให้ลองดูวิธีป้องกันเว็บไซต์ด้านล่างนี้

  1. วิเคราะห์หาโปรแกรมรวบรวมข้อมูลของ Google ที่กำลังรวบรวมข้อมูลจากเว็บไซต์ของคุณมากเกินไป ดูบันทึกเว็บไซต์หรือใช้รายงานสถิติการรวบรวมข้อมูล
  2. การบรรเทาปัญหาในทันที
    • หากต้องการวิธีแก้ไขง่ายๆ ให้ใช้ robots.txt เพื่อบล็อกการ Crawl สำหรับ Agent ที่ทำงานมากเกินไป (googlebot, adsbot ฯลฯ) อย่างไรก็ตาม อาจใช้เวลาถึง 1 วันกว่าจะเห็นผล แต่ไม่ควรบล็อกนานเกินไปเนื่องจากอาจส่งผลเสียต่อการ Crawl ในระยะยาว
    • หากคุณตรวจหาและตอบสนองต่อภาระงานที่เพิ่มขึ้นได้แบบไดนามิก ให้แสดง HTTP 503/429 เมื่อการแสดงผลใกล้ถึงขีดจำกัด แต่อย่าแสดงผล 503 หรือ 429 นานเกินกว่า 2 หรือ 3 วัน มิฉะนั้นระบบอาจส่งสัญญาณให้ Google ทำการ Crawl จากเว็บไซต์ของคุณถี่น้อยลงในระยะยาว
  3. 2 หรือ 3 วันหลังจากนั้น เมื่ออัตราการ Crawl ของ Google ปรับเปลี่ยนแล้ว คุณจะนำ robots.txt ออกหรือหยุดแสดงผลรหัสข้อผิดพลาด 503 หรือ 429 ได้
  4. หาก AdsBot รวบรวมข้อมูลมากเกินไป ก็น่าจะเป็นเพราะคุณสร้างเป้าหมายจำนวนมากเกินไปสำหรับโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกในเว็บไซต์โดยใช้ URL_Equals หรือฟีดหน้าเว็บ หากเซิร์ฟเวอร์มีความสามารถไม่พอในการรับมือการรวบรวมข้อมูลเหล่านี้ คุณควรจำกัดเป้าหมายโฆษณา เพิ่ม URL เป็นกลุ่มเล็กๆ หรือเพิ่มความสามารถในการแสดงหน้าเว็บ โปรดทราบว่า AdsBot จะรวบรวมข้อมูลหน้าเว็บทุกๆ 2 สัปดาห์ คุณจึงต้องแก้ไขปัญหา มิเช่นนั้นปัญหาจะเกิดขึ้นอีก

อัตราการรวบรวมข้อมูลดูเหมือนจะต่ำเกินไป

คุณบอกให้ Google เพิ่มอัตราการ Crawl ไม่ได้ อย่างไรก็ตาม คุณสามารถดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีจัดการการ Crawl สำหรับเว็บไซต์ขนาดใหญ่มากหรือเว็บไซต์ที่อัปเดตบ่อย

สำหรับเว็บไซต์ขนาดเล็กหรือขนาดกลาง หากคุณพบว่า Google ไม่ได้รวบรวมข้อมูลทั้งหมดในเว็บไซต์ ให้ลองอัปเดตแผนผังเว็บไซต์ และตรวจสอบว่าคุณไม่ได้บล็อกหน้าเว็บใดๆ ไว้

ทำไมอัตราการรวบรวมข้อมูลจึงลดลง

ปกติแล้ว อัตราการรวบรวมข้อมูลของ Google ควรจะค่อนข้างคงที่ในช่วง 1 หรือ 2 สัปดาห์ หากคุณเห็นการลดลงทันทีทันใด โปรดดูสาเหตุบางประการที่อาจเป็นไปได้ต่อไปนี้

  • หากคุณได้เพิ่มกฎใหม่ (หรือกฎที่กว้างมาก) ใน robots.txt ให้ตรวจสอบว่าคุณบล็อกเฉพาะทรัพยากรที่จำเป็นต้องบล็อกเท่านั้น และหาก Google ต้องการทรัพยากรใดโดยเฉพาะ เช่น CSS หรือ JavaScript เพื่อทำความเข้าใจเนื้อหา ให้ตรวจสอบว่าคุณไม่ได้บล็อกทรัพยากรเหล่านั้นจาก Googlebot
  • หากเว็บไซต์ตอบสนองคำขอช้า Googlebot จะดันคำขอต่างๆ กลับไปเพื่อไม่ให้เซิร์ฟเวอร์ทำงานหนักเกินไป ให้ตรวจสอบรายงานสถิติการรวบรวมข้อมูลเพื่อดูว่าเว็บไซต์ของคุณตอบกลับช้ากว่าเดิมไหม
  • หากอัตราข้อผิดพลาดของเซิร์ฟเวอร์เพิ่มสูงขึ้น Googlebot จะดันคำขอต่างๆ กลับไปเพื่อไม่ให้เซิร์ฟเวอร์ทำงานหนักเกินไป
  • หากเว็บไซต์มีการเปลี่ยนแปลงข้อมูลน้อยครั้งลง หรือข้อมูลไม่ได้มีคุณภาพสูงมาก เราอาจไม่รวบรวมข้อมูลบ่อยเท่าเดิม โปรดตรวจดูเว็บไซต์ของคุณด้วยความซื่อตรง รับฟังความคิดเห็นอย่างเป็นกลางจากผู้คนที่ไม่เกี่ยวข้องกับเว็บไซต์ของคุณ และค้นหาจุดหรือวิธีการในการปรับปรุงเว็บไซต์โดยรวม

ผลรวมของการรวบรวมข้อมูลรายงานสูงกว่าผลรวมของบันทึกจากเซิร์ฟเวอร์ของเว็บไซต์มาก

หากผลรวมของการรวบรวมข้อมูลที่แสดงในรายงานนี้สูงกว่าคำขอรวบรวมข้อมูลของ Google ในบันทึกของเซิร์ฟเวอร์มาก อาจเป็นเพราะ Google รวบรวมข้อมูลเว็บไซต์ของคุณไม่ได้เนื่องจากไฟล์ robots.txt ไม่พร้อมใช้งานเป็นเวลานานเกินไป ในกรณีนี้ Google จะนับการรวบรวมข้อมูลที่อาจได้ดำเนินการหากมีไฟล์ robots.txt แต่ไม่ได้เรียกใช้จริงๆ ตรวจสอบสถานะการดึงข้อมูลไฟล์ robots.txt เพื่อยืนยันว่ากรณีนี้เป็นปัญหาหรือไม่

ข้อมูลนี้มีประโยชน์ไหม

เราจะปรับปรุงได้อย่างไร

หากต้องการความช่วยเหลือเพิ่มเติม

ลองทำตามขั้นตอนต่อไปนี้

ค้นหา
ล้างการค้นหา
ปิดการค้นหา
เมนูหลัก
396970136329123425
true
ค้นหาศูนย์ช่วยเหลือ
true
true
true
true
true
83844
false
false