ชื่อและตำแหน่งของตาราง
การส่งออกข้อมูลพร้อมกันจำนวนมากใน Search Console จะสร้างตารางต่อไปนี้ในโปรเจ็กต์ BigQuery
ชื่อชุดข้อมูล: searchconsole
(โปรดทราบว่าสามารถปรับแต่งได้เพื่อให้คุณหรือบุคคลอื่นเลือกชื่ออื่นในระหว่างการตั้งค่า)
รายการตาราง:
- searchdata_site_impression: มีข้อมูลประสิทธิภาพของพร็อพเพอร์ตี้ที่รวบรวมตามพร็อพเพอร์ตี้
- searchdata_url_impression: มีข้อมูลประสิทธิภาพของพร็อพเพอร์ตี้ที่รวบรวมตาม URL
- ExportLog: มีรายละเอียดเกี่ยวกับการส่งออกข้อมูลแต่ละรายการที่สำเร็จ โดยส่งออกไปยังหนึ่งในตารางข้อมูลก่อนหน้า โปรดทราบว่าโดยทั่วไปแล้ว Search Console จะส่งออกข้อมูลไปยังตารางเหล่านั้นแยกต่างหาก ส่วนการพยายามส่งออกข้อมูลที่ไม่สำเร็จจะไม่มีการบันทึกไว้ที่นี่
การส่งออกข้อมูลจำนวนมาก: ตารางและเคล็ดลับสำหรับการฝึกอบรม Google Search Console
กำหนดเวลาบันทึกตาราง
Search Console จะส่งออกข้อมูลจำนวนมากวันละครั้ง แต่อาจไม่ได้ดำเนินการพร้อมกันสำหรับแต่ละตาราง
หาก Search Console พบข้อผิดพลาดชั่วคราว เช่น ปัญหาการเชื่อมต่อ ระบบจะพยายามส่งออกอีกครั้งทันทีโดยไม่มีการส่งการแจ้งเตือน
หากเกิดข้อผิดพลาดอย่างต่อเนื่องระหว่างที่พยายามส่งออก เช่น ข้อผิดพลาดเกี่ยวกับสิทธิ์ Search Console จะไม่พยายามส่งออกตารางอีกจนกว่าจะถึงเวลาการส่งออกที่กำหนดไว้ของวันถัดไป Search Console จะพยายามส่งออกข้อมูลของวันที่ขาดไปเป็นเวลาประมาณ 1 สัปดาห์ จากนั้นจะหยุดพยายามบันทึกข้อมูลของวันนั้น เช่น หาก Search Console พยายามบันทึกข้อมูลของวันที่ 1 แต่พบข้อผิดพลาดในการตรวจสอบสิทธิ์ซึ่งไม่ได้รับการแก้ไขจนถึงวันที่ 9 ระบบจะไม่ส่งออกข้อมูลสำหรับวันที่ 1 และ 2 แต่จะเพิ่มข้อมูลของวันที่เหลือเมื่อได้รับสิทธิ์เข้าถึงอีกครั้งในวันที่ 9
หาก Search Console ต้องแก้ไขข้อมูลที่บันทึกไว้ก่อนหน้านี้เนื่องจากข้อผิดพลาดในการประมวลผลบางอย่างได้รับการแก้ไข การเปลี่ยนแปลงทั้งหมดจะเป็นแบบอันหนึ่งอันเดียว ซึ่งหมายความว่า Search Console จะอัปเดตข้อมูลทั้งหมดของวันนั้นในคอมมิตเดียว การแก้ไขข้อมูลเก่าไม่ได้เกิดขึ้นบ่อยนักและจะไม่ทริกเกอร์อีเมล แต่จะได้รับการบันทึกไว้ในบันทึกการส่งออก
Search Console จะรวบรวมข้อมูลประสิทธิภาพแบบเพิ่มข้อมูลไปเรื่อยๆ ซึ่งส่งผลให้แถวของตารางมีคีย์ซ้ำกัน และระบบไม่ได้บีบอัดข้อมูลนี้ก่อนส่งออกไปยังตาราง ดังนั้น คุณจึงควรรวบรวมเมตริกทั้งหมดไว้เกือบทุกครั้ง
เวลาการเก็บรักษาข้อมูล
ระบบจะเก็บรักษาตารางและพาร์ติชันไว้อย่างถาวรโดยค่าเริ่มต้น ทั้งนี้ขึ้นอยู่กับค่าเริ่มต้นที่เป็นสากลซึ่งโปรเจ็กต์ Google Cloud หรือองค์กรของคุณกำหนดไว้
หากต้องการหลีกเลี่ยงการเก็บรวบรวมข้อมูลอย่างไม่จำกัด เราขอแนะนำให้กำหนดเวลาหมดอายุสำหรับพาร์ติชันหลังจากผ่านระยะเวลาที่ยอมรับได้ไปแล้ว เช่น 1 เดือน, 6 เดือน, 12 เดือน หรือระยะเวลาใดก็ได้ที่คุณต้องการและจำนวนข้อมูลที่คุณรวบรวม แต่คุณไม่ควรกำหนดวันที่หมดอายุสำหรับทั้งตาราง เนื่องจากจะเป็นการลบข้อมูลทั้งหมด
สคีมาของตาราง
สคีมาสำหรับตารางที่ Search Console ส่งออกมีดังนี้ ตารางทั้งหมดจะมีคำนำหน้า <your_project_ID>.searchconsole
ตาราง searchdata_site_impression
ตารางนี้มีข้อมูลที่รวบรวมตามพร็อพเพอร์ตี้ โดยจะมีช่องต่อไปนี้
- data_date: วันที่มีการสร้างข้อมูลในแถวนี้ (เวลาเขตแปซิฟิก)
- site_url: URL ของพร็อพเพอร์ตี้ สำหรับพร็อพเพอร์ตี้ระดับโดเมน URL นี้จะเป็น sc-domain:ชื่อพร็อพเพอร์ตี้ สำหรับพร็อพเพอร์ตี้ที่มีคำนำหน้า URL จะเป็น URL แบบเต็มตามคำจำกัดความของพร็อพเพอร์ตี้ ตัวอย่าง: sc-domain:developers.google.com, https://developers.google.com/webmaster-tools/
- query: การค้นหาของผู้ใช้ เมื่อ is_anonymized_query เป็นจริง ตารางนี้จะเป็นสตริงที่มีความยาวเป็น 0
- is_anonymized_query: คำค้นหาที่พบน้อยมาก (เรียกว่าข้อความค้นหาที่มีการลบข้อมูลระบุตัวบุคคลออก) จะมีการระบุด้วยบูลีนนี้ ช่องการค้นหาจะเป็นค่าว่างเมื่อเป็นจริงเพื่อปกป้องความเป็นส่วนตัวของผู้ใช้ที่ทำการค้นหา
- Country: ประเทศที่การค้นหาดังกล่าวเกิดขึ้นในรูปแบบ ISO-3166-1-Alpha-3
- search_type - ค่าสตริงค่าใดค่าหนึ่งต่อไปนี้
- web: แท็บเริ่มต้น ("ทั้งหมด") ใน Google Search
- image: แท็บ "รูปภาพ" ใน Google Search
- video: แท็บ "วิดีโอ" ใน Google Search
- news: แท็บ "ข่าวสาร" ใน Google Search
- discover: ผลการค้นหาใน Discover
- googleNews: news.google.com และแอป Google News ใน Android และ iOS
- device: อุปกรณ์ที่ใช้ในการค้นหา
- impressions: จำนวนการแสดงผลสำหรับแถวนี้
- clicks: จำนวนการคลิกสำหรับแถวนี้
- sum_top_position: ผลรวมจากตำแหน่งบนสุดของเว็บไซต์ในผลการค้นหาสำหรับการแสดงผลแต่ละครั้งในแถวของตารางนั้น โดยที่ 0 คือตำแหน่งบนสุดในผลการค้นหา หากต้องการคำนวณอันดับเฉลี่ย (ซึ่งเป็นฐาน 1) ให้คำนวณโดยใช้สูตร
SUM(sum_top_position)/SUM(impressions) + 1
ตาราง searchdata_url_impression
ตารางนี้มีข้อมูลที่รวบรวมตาม URL โดยจะมีช่องต่อไปนี้
- data_date: เหมือนกับด้านบน
- site_url: เหมือนกับด้านบน
- url: URL ที่สมบูรณ์ในตัวเอง ซึ่งจะนำผู้ใช้ไปยังหน้าเว็บในท้ายที่สุดเมื่อคลิกผลการค้นหาหรือเรื่องราวใน Discover
- query: เหมือนกับด้านบน
- is_anonymized_query: เหมือนกับด้านบน
- is_anonymized_discover: ระบุว่าแถวข้อมูลอยู่ภายใต้เกณฑ์การลบข้อมูลระบุตัวบุคคลของ Discover หรือไม่ เมื่ออยู่ภายใต้เกณฑ์ ช่องอื่นๆ บางช่อง (เช่น URL และประเทศ) จะหายไปเพื่อปกป้องความเป็นส่วนตัวของผู้ใช้
- country: เหมือนกับด้านบน
- search_type: เหมือนกับด้านบน
- device: เหมือนกับด้านบน
- is_[search_appearance_type]: มีช่องบูลีนหลายช่องที่ใช้ระบุประเภทลักษณะที่ปรากฏในการค้นหา เช่น is_amp_top_stories, is_job_listing และ is_job_details ช่องจะเป็นจริงหากแถวที่เป็นปัญหาปรากฏสำหรับผลการค้นหาที่เป็นริชมีเดียบางประเภท
- impressions: เหมือนกับด้านบน
- clicks: เหมือนกับด้านบน
- sum_position: ตัวเลขฐาน 0 ที่ระบุตำแหน่งบนสุดของ URL นี้ในผลการค้นหาสำหรับคำค้นหา (0 เป็นตำแหน่งบนสุดในผลลัพธ์) หากต้องการคำนวณอันดับเฉลี่ย (ซึ่งเป็นฐาน 1) ให้คำนวณโดยใช้สูตร
SUM(sum_position)/SUM(impressions) + 1
ตาราง ExportLog
ตารางนี้คือบันทึกของข้อมูลที่บันทึกไว้ในวันนั้น การส่งออกที่ไม่สำเร็จจะไม่มีการบันทึกไว้ที่นี่ ดูข้อมูลเพิ่มเติมเกี่ยวกับการติดตามที่ไม่สำเร็จ ตารางจะมีช่องต่อไปนี้
- agenda: ประเภทข้อมูลที่บันทึกไว้ ปัจจุบันมีค่าเดียวคือ SEARCHDATA
- namespace: ตารางที่บันทึกไว้ โดยปกติแล้ว Search Console จะส่งออกข้อมูลสำหรับแต่ละตารางแยกกัน ดังนั้นในแต่ละวันมักจะมีการส่งออก 2 แถว
- data_date: วันที่มีการคลิกหรือการแสดงผล แสดงตามเวลาเขตแปซิฟิก ซึ่งเป็นวันที่แบ่งพาร์ติชันที่ตารางใช้
- epoch_version: จำนวนเต็ม โดย 0 คือข้อมูลแรกที่บันทึกลงในตารางนี้สำหรับวันที่นี้ ในกรณีซึ่งเกิดขึ้นไม่บ่อยนักที่ Search Console ต้องกลับไปปรับแก้ข้อมูลก่อนหน้า โดยอาจเป็นเพราะความผิดปกติของข้อมูล ค่านี้จะเพิ่มขึ้นทีละ 1 ทุกครั้งที่มีการอัปเดตข้อมูลสำหรับตารางและวันที่ดังกล่าว
- publish_time: เวลาเขตแปซิฟิกเมื่อการส่งออกเสร็จสมบูรณ์