הדוח 'נתונים סטטיסטיים של סריקה'

בדוח 'נתונים סטטיסטיים של סריקה' מוצגים נתונים סטטיסטיים לגבי היסטוריית הסריקה של Google באתר שלכם. למשל, כמה בקשות נשלחו ומתי, מה הייתה תגובת השרת וכל בעיה הקשורה לזמינות. תוכלו להשתמש בדוח הזה כדי לזהות אם Google נתקלה בבעיות הצגה במהלך סריקת האתר שלכם.

הדוח הזה מיועד למשתמשים מתקדמים. אם באתר שלכם יש פחות מ-1,000 דפים, אין לכם צורך בדוח הזה ורמת הפירוט הזו של הסריקה לא צריכה להדאיג אתכם.

הדוח הזה זמין רק לנכסים ברמה הבסיסית (root). כלומר, הנכס חייב להיות נכס דומיין (כמו example.com או m.example.com) או נכס עם קידומת של כתובת URL ברמה הבסיסית (https://example.com,‏ http://example.com,‏ http://m.example.com).

לפתיחת הדוח 'נתונים סטטיסטיים של סריקה'

C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training

כדי להגיע לדוח 'נתונים סטטיסטיים של סריקה' ב-Search Console, לוחצים על הסמל הגדרות (הגדרות נכס) > נתונים סטטיסטיים של סריקה.

איך מתחילים

לפני השימוש בדוח זה, עליכם להבין את הנושאים הבאים:

מידע על הנתונים

  • כל כתובות ה-URL שמוצגות ונספרות הן כתובות ה-URL ש-Google מבקשת בפועל. הנתונים לא מוקצים לכתובות URL קנוניות כמו שנעשה בדוחות מסוימים.
  • אם לכתובת ה-URL יש הפניה אוטומטית בצד השרת, כל בקשה בשרשרת ההפניה נספרת כבקשה נפרדת. כך, כאשר דף 1 מפנה לדף 2, שמפנה לדף 3, אם Google תבקש את דף 1, יוצגו בקשות נפרדות לדף 1 (תוחזר תגובה 301 או 302), לדף 2 (תוחזר תגובה 301 או 302) ולדף 3 (יש לקוות שתוחזר תגובה 200). לידיעתכם, יוצגו רק דפים בדומיין הנוכחי. סוג הקובץ של התגובה להפניה אוטומטית הוא 'סוג קובץ אחר'. הפניות אוטומטיות בצד הלקוח לא נספרות.
  • סריקות שנשקלו אבל לא בוצעו כי הקובץ robots.txt לא היה זמין נספרות בסך כל הסריקות, אבל הדוח עשוי להכיל מידע מוגבל על אותם ניסיונות. מידע נוסף
  • משאבים והיקף:
    • כל הנתונים מוגבלים לדומיין הנוכחי שנבחר. בקשות לדומיינים אחרים לא יוצגו. נכללות בקשות למשאבים כלשהם בדף (כגון תמונות) שמתארחים מחוץ לנכס הזה. לכן, אם הדף example.com/mypage כולל את התמונה google.com/img.png, הבקשה ל-google.com/img.png לא תוצג בדוח 'נתונים סטטיסטיים של סריקה' של הנכס example.com.
    • בדומה לכך, לא יוצגו בקשות לדומיין אח (en.example ו-de.example). לכן, אם תעיינו בדוח 'נתונים סטטיסטיים של סריקה' של en.example, הבקשות לתמונה ב-de.example לא יוצגו.
    • עם זאת, ניתן לראות בדומיין ההורה בקשות בין תת-דומיינים. כך למשל, אם תציגו נתונים של example.com, תוכלו לראות את כל הבקשות ל-example.com, ל-en.example, ל-de.example.com ולכל דומיין צאצא אחר, בכל רמה מתחת ל-example.com.
    • לעומת זאת, אם נעשה שימוש במשאבים של הנכס שלכם בדף של דומיין אחר, ייתכן שתראו בקשות סריקה המשויכות לדף המארח. עם זאת, לא יוצג הקשר שמעיד שהמשאב נסרק, מכיוון שנעשה בו שימוש בדף בדומיין אחר (כלומר, לא ניתן לראות שהתמונה example.com/imageX.png נסרקה, מאחר שהיא כלולה בדף anotherexample.com/mypage).
    • נתוני סריקה כוללים פרוטוקולים של http ושל https, גם עבור נכסים עם קידומת של כתובת URL. כלומר, דוח 'נתונים סטטיסטיים של סריקה' עבור http://example.com כולל בקשות הן ל-http://example.com והן ל-https://example.com. עם זאת, כתובות ה-URL לדוגמה של נכסים עם קידומת של כתובת URL מוגבלות לפרוטוקול שהוגדר לנכס (http או https).
בעיה ידועה: בשלב זה, הדוח 'נתונים סטטיסטיים של סריקה' כולל דיווח על רוב בקשות הסריקה, אך ייתכן שבקשות מסוימות לא נספרות מסיבות שונות. אנחנו צופים שהיקף הדיווח שלנו יגדל עם הזמן ויכלול את רוב הבקשות, אם לא את כולן. לכן, ייתכן שתבחינו בהבדלים קלים בין יומני הבקשות של האתר שלכם למספרים המוצגים כאן.

ניווט בדוח

כדי לראות תצוגה מפורטת של ערך טבלה עבור פריט מסוים, כולל רשימה של כתובות URL לדוגמה, לוחצים על הערך. כדי לקבל פרטים בנוגע לבקשת סריקה ספציפית, לוחצים על כתובת ה-URL. לדוגמה, בטבלה שמציגה תגובות לפי סוג, לוחצים על השורה HTML כדי להציג פרטי סריקה מצטברים של כל דפי ה-HTML שנסרקים באתר שלכם, ובנוסף, פרטים כמו זמן הסריקה, קוד התגובה, גודל התגובה ועוד עבור בחירה לדוגמה של כתובות URL אלו.

מארחים ודומיינים צאצאים

אם הנכס נמצא ברמת הדומיין (example.com, http://example.com, https://m.example.com) והוא מכיל לפחות שני דומיינים צאצאים (למשל, fr.example.com ו-de.example.com), תוכלו לראות את הנתונים של ההורה, הכוללים את כל הצאצאים, או של דומיין צאצא ספציפי.

כדי להציג את הדוח של צאצא ספציפי, לוחצים על הצאצא ברשימות המארחים בדף הנחיתה של דומיין ההורה. מוצגים רק 20 הדומיינים הצאצאים המובילים שהייתה בהם תנועה ב-90 הימים האחרונים.

כתובות URL לדוגמה

ניתן ללחוץ על כל אחת מרשומות סוגי הנתונים המקובצים (על פי תגובה, סוג קובץ, מטרה, סוג Googlebot), כדי להציג רשימה של כתובות URL לדוגמה מסוג מסוים.

כתובות URL לדוגמה אינן מקיפות, אלא רק משמשות כדוגמה מייצגת. אם אינכם מוצאים כתובת URL ברשימה, זה לא אומר שלא ביקשנו אותה. עשוי להתבצע שקלול יומי של מספר הדוגמאות ולכן ייתכן שתגלו שסוגי בקשות מסוימים עשויים לכלול יותר דוגמאות מסוגים אחרים. מצב זה אמור להתאזן לאורך זמן.

סה"כ בקשות סריקה

המספר הכולל של בקשות הסריקה שנוצרו לכתובות URL באתר שלכם, בין אם מולאו בהצלחה ובין אם לא. המספר כולל בקשות למשאבים שהדף משתמש בהם, אם משאבים אלו נמצאים באתר. בקשות למשאבים שמתארחים מחוץ לאתר לא נספרות. בקשות כפולות לאותה כתובת URL נספרות בנפרד. אם קובץ robots.txt לא מספיק זמין, אחזורים פוטנציאליים כן נספרים.

אלו סוגי הבקשות שנספרות גם אם לא הצליחו:

גודל הורדה כולל

המספר הכולל של הבייטים שהורדו מהאתר במהלך הסריקה, בתקופת הזמן שצוינה. אם Google שומרת במטמון משאב של דף שנעשה בו שימוש בכמה דפים, מתבצעת בקשה למשאב רק בפעם הראשונה (כשהוא נשמר במטמון).

זמן תגובה ממוצע

זמן התגובה הממוצע לכל המשאבים שאוחזרו מהאתר בתקופת הזמן שצוינה. כל משאב המקושר דרך דף נספר כתגובה נפרדת.

סטטוס המארח

סטטוס מארח מציין אם Google נתקלה בבעיות זמינות בזמן שהיא ניסתה לסרוק את האתר. הסטטוס יכול להיות אחד מהערכים הבאים:

  • No significant availability issues icon
    Google לא נתקלה בבעיות משמעותיות בזמינות הסריקה של האתר ב-90 הימים האחרונים – עבודה טובה! אתם לא צריכים לעשות שום דבר.
  • Some availability issues, but not recently
    Google נתקלה בבעיה משמעותית אחת לפחות בזמינות הסריקה של האתר ב-90 הימים האחרונים, אבל היא התרחשה לפני יותר משבוע. ייתכן שהבעיה הייתה זמנית או שהבעיה נפתרה. כדי לראות מה הייתה הבעיה וכדי להחליט אם צריך לנקוט פעולה כלשהי, עליכם לבדוק את הטבלה תגובה.
  • Recent availability issue
    Google נתקלה בבעיה משמעותית אחת לפחות בזמינות הסריקה של האתר בשבוע האחרון. בגלל שהשגיאה התרחשה לאחרונה, עליכם לנסות לבדוק אם זו בעיה שחוזרת על עצמה. כדי לראות מה הייתה הבעיה וכדי להחליט אם צריך לנקוט פעולה כלשהי, בדקו את הטבלה תגובה.
מה צריך לחפש

במצב אידיאלי, סטטוס המארח צריך להיות ירוק. אם סטטוס הזמינות הוא אדום, עליכם ללחוץ ולבדוק את פרטי הזמינות של robots.txt, של רזולוציית DNS ושל קישוריות המארח.

פרטי הסטטוס של המארח

הערכת סטטוס הזמינות של המארח מתבצעת לפי הקטגוריות המפורטות בהמשך. שגיאה משמעותית בקטגוריה כלשהי עלולה להוביל לסטטוס זמינות מופחת. לקבלת פרטים נוספים, לחצו על הקטגוריה בדוח.

לכל קטגוריה יוצג תרשים של נתוני סריקה לתקופת הזמן שנבחרה. בתרשים יש קו אדום מקווקו. אם המדד נמצא מעל הקו המקווקו עבור הקטגוריה (לדוגמה, אם רזולוציית ה-DNS נכשלה עבור יותר מ-5% מהבקשות ביום נתון), זה נחשב כבעיה בקטגוריה והסטטוס ישקף את השכיחות של הבעיה האחרונה.

  • אחזור robots.txt
    בתרשים מוצג שיעור הכישלונות של בקשות לקובץ robots.txt במהלך סריקה. Google מבקשת את הקובץ הזה לעיתים קרובות, ואם הבקשה לא מחזירה קובץ תקין (מאוכלס או ריק) או תגובה מסוג 404 (הקובץ לא קיים), Google תאט או תפסיק את סריקת האתר עד שהיא תצליח לקבל תגובת robots.txt סבירה. (פרטים נוספים בהמשך)

  • רזולוציית DNS בתרשים תוכלו לראות מתי שרת ה-DNS לא זיהה את שם המארח או לא הגיב במהלך הסריקה. אם מוצגות שגיאות, עליכם לבדוק עם הרשם ולוודא שהאתר מוגדר כראוי ושהשרת מחובר לאינטרנט.
  • קישוריות שרת
    בתרשים מוצג מתי השרת לא הגיב או לא סיפק תגובה מלאה לכתובת URL במהלך סריקה. לקבלת מידע על תיקון השגיאות האלה, יש לעיין בקטע שגיאות בחיבור לשרת.
פרטים נוספים על הזמינות של robots.txt

בהמשך תמצאו תיאור מפורט יותר של האופן שבו Google בודקת את קובצי ה-robots.txt (ומסתמכת עליהם) במהלך סריקת האתר שלכם.

באתר שלכם לא חייב להיות קובץ robots.txt, אבל הוא חייב להחזיר תגובה מוצלחת (כפי שמוגדר בהמשך) כשמתבצעת בקשה לקובץ, אחרת, Google עשויה להפסיק את סריקת האתר.

  • תגובות robots.txt מוצלחות
  • כל אחת מהתגובות הבאות נחשבת כתגובה מוצלחת:
    • קוד 200 של HTTP וקובץ robots.txt (הקובץ יכול להיות תקין, לא תקין או ריק). אם בקובץ יש שגיאות תחביר, הבקשה עדיין תיחשב כמוצלחת, אבל Google עשויה להתעלם מכל כלל עם שגיאת תחביר.
    • קודי השגיאה 403/404/410 של HTTP (הקובץ לא קיים). אין צורך בקובץ robots.txt באתר שלכם.
  • תגובות robots.txt לא מוצלחות

בהמשך תמצאו תיאור של האופן שבו Google מבקשת קובצי robots.txt ומשתמשת בהם במהלך סריקת אתר:

  1. לפני ש-Google סורקת את האתר, היא בודקת אם בוצעה לאחרונה בקשת robots.txt בהצלחה (לפני פחות מ-24 שעות).
  2. אם Google קיבלה תגובה של קובץ robots.txt שהסתיימה בהצלחה לפני פחות מ-24 שעות, Google משתמשת בקובץ robots.txt הזה בסריקת האתר שלכם. (חשוב לזכור שהתגובה "שגיאת 404" נחשבת כמוצלחת, והמשמעות היא שאין קובץ robots.txt, כלומר Google יכולה לסרוק את כל כתובות ה-URL באתר).
  3. אם התגובה האחרונה נכשלה או אם היא התקבלה לפני יותר מ-24 שעות, Google מבקשת את קובץ ה-robots.txt:
    • אם התגובה לבקשה מוצלחת, הסריקה תוכל להתחיל.
    • אם התגובה נכשלה:
      • במהלך 12 השעות הראשונות, Google תפסיק לסרוק את האתר שלכם, אבל תמשיך לבקש את קובץ ה-robots.txt.
      • בין 12 שעות ל-30 ימים, Google תשתמש בקובץ robots.txt האחרון שאוחזר בהצלחה, ותמשיך לבקש את קובץ ה-robots.txt.
      • לאחר 30 ימים:
        • אם דף הבית של האתר זמין, Google תפעל כאילו שאין קובץ robots.txt ותסרוק ללא הגבלה.
        • אם דף הבית של האתר לא זמין, Google תפסיק לסרוק את האתר.
        • בכל מקרה, Google תמשיך לבקש את קובץ ה-robots.txt.
סריקות שהושמטו כי קובץ ה-robots.txt לא היה זמין נספרות בסך כל הסריקות. עם זאת, הסריקות האלה לא התבצעו בפועל, לכן בחלק מהדוחות המקובצים (סריקות לפי מטרה, סריקות לפי תגובה וכן הלאה) הסריקות האלה לא יופיעו, או שהמידע לגביהן יהיה מוגבל.

תגובות סריקה

טבלה זו מציגה את התגובות ש-Google מקבלת במהלך סריקת האתר, המקובצות לפי סוג התגובה, כאחוז מכל תגובות הסריקה. הנתונים מבוססים על המספר הכולל של הבקשות ולא לפי כתובת ה-URL. לכן, אם Google שלחה בקשה לכתובת URL פעמיים, בפעם הראשונה היא קיבלה את התגובה 'שגיאה בחיבור לשרת' (500) ובפעם השנייה היא קיבלה את התגובה 'תקין' ‏(200), התגובה תהיה 50% 'שגיאה בחיבור לשרת' ו-50% 'תקין'.

מה צריך לחפש
רוב התגובות צריכות להיות מסוג 200 או תגובות אחרות מסוג "טוב", אלא אם אתם מארגנים מחדש את האתר או מעבירים את האתר. ברשימה שבהמשך מוסבר איך לטפל בקודי תגובה אחרים.

 

לפניכם מספר קודי תגובה נפוצים ודרכים לטפל בהם:

קודי תגובה טובים

דפים אלה תקינים ואינם גורמים לבעיות.

  • תקין ‏(200): בנסיבות רגילות, רוב התגובות צריכות להיות מסוג 200.
  • הועבר לצמיתות (301): הדף מחזיר תגובה 301 או 308 של HTTP (הועבר לצמיתות). קרוב לוודאי שזו הייתה הכוונה.
  • הועבר זמנית (302): הדף מחזיר תגובה 302 או 307 של HTTP (הועבר זמנית). קרוב לוודאי שזו הייתה הכוונה. אם הדף הזה הועבר לצמיתות, יש לשנות את התגובה ל-301.
  • הועבר (אחר): רענון של המטא-נתונים.
  • לא שונה (304): הדף לא השתנה מאז בקשת הסריקה האחרונה.

קודי תגובה שייתכן שהם טובים

יכול להיות שהתגובות האלה תקינות, אבל כדאי לוודא שזו הייתה הכוונה.

  • שגיאות מסוג לא נמצא (404) עלולות להיגרם עקב קישורים מנותקים באתר או מחוץ לאתר. זה לא אפשרי, משתלם או אפילו רצוי לתקן את כל השגיאות מסוג 404 באתר, ובמקרים רבים, שגיאה מסוג 404 היא התגובה הנכונה (למשל, אם הדף באמת הוסר ללא החלפה). כאן מוסבר איך ואם כדאי לפתור שגיאות מסוג 404.

קודי תגובה שליליים

עליכם לתקן דפים שמחזירים את השגיאות האלה כדי לשפר את הסריקה.

  • robots.txt לא זמין: אם הקובץ robots.txt לא יהיה זמין למשך יום, Google תפסיק לסרוק לזמן מה, עד לקבלת תגובה תקינה לבקשה לקובץ robots.txt. חשוב להקפיד שלא להסוות את קובץ robots.txt מפני Google או לשנות את דף robots.txt בהתאם לסוכן המשתמש.
    התגובה הזו לא זהה לשגיאה "לא נמצא (404)" עבור קובץ robots.txt, שנחשבת לתגובה תקינה. פרטים נוספים על robots.txt.
  • בקשה לא מורשית (401/407): יש לחסום את סריקת הדפים האלה באמצעות robots.txt או להחליט אם יש לבטל את החסימה שלהם. אם אין בדפים האלה נתונים מאובטחים ואתם רוצים שהם ייסרקו, מומלץ להעביר את המידע לדפים לא מאובטחים או להתיר כניסה ל-Googlebot ללא התחברות (עם זאת, שימו לב שה-Googlebot יכול להיות מזויף, כך שמתן כניסה ל-Googlebot יסיר בפועל את אבטחת הדף).
  • שגיאה בחיבור לשרת (5XX): שגיאות אלה גורמות לאזהרות זמינות, ולכן יש לתקן אותן אם אפשר. בתרשים הממוזער אפשר לראות מתי בערך התרחשו השגיאות. כדי לראות פרטים נוספים וזמנים מדויקים אפשר ללחוץ על התרשים. עליכם לקבוע אם אלו בעיות זמניות או שהן מייצגות שגיאות זמינות חמורות יותר באתר. אם המערכת של Google סורקת את האתר שלכם בתדירות גבוהה מדי, תוכלו לבקש קצב סריקה נמוך יותר. אם מדובר בבעיית זמינות חמורה, כדאי לקרוא פרטים בנוגע לעליות חדות במספר הסריקות. לקבלת מידע על תיקון השגיאות האלה, יש לעיין בקטע שגיאות בחיבור לשרת.
  • שגיאת לקוח אחרת (4XX): שגיאת 4XX אחרת (בצד הלקוח) שלא צוינה כאן. מומלץ לפתור את הבעיות האלה.
  • DNS לא מגיב: שרת ה-DNS לא הגיב לבקשות הנוגעות לכתובות URL באתר שלכם.
  • שגיאת DNS: שגיאת DNS אחרת שאינה מוגדרת.
  • שגיאת אחזור: לא ניתן לאחזר את הדף בגלל מספר יציאה או כתובת IP שגויים, או בגלל תגובה שאינה ניתנת לניתוח.
  • לא ניתן להגיע אל הדף: כל שגיאה אחרת באחזור הדף, שבה הבקשה לא הגיעה לשרת. בגלל שהבקשות לא הגיעו לשרת, הן לא יופיעו ביומנים שלכם.
  • זמן קצוב לתפוגה של דף: פג הזמן הקצוב לבקשה של הדף.
  • שגיאת הפניה לכתובת אחרת: שגיאה בהפניית הבקשה לכתובת אחרת, כמו הפניות רבות מדי, הפניות ריקות או הפניות מעגליות.
  • שגיאה אחרת: שגיאה אחרת שלא מתאימה לאף אחת מהקטגוריות הרשומות למעלה.

סוגי הקבצים שנסרקו

סוג הקובץ שהוחזר בעקבות הבקשה. הערך באחוזים של כל סוג הוא אחוז התגובות מהסוג הזה, לא אחוז הבייטים שאוחזרו מהסוג הזה.

ערכים אפשריים של סוגי קבצים:

  • HTML
  • תמונה
  • סרטון ﹣ אחד מהפורמטים הנתמכים של סרטונים.
  • JavaScript
  • CSS
  • PDF
  • XML אחר ﹣ קובץ XML שהוא לא RSS‏, KML או כל פורמט אחר המבוסס על XML.
  • JSON
  • הפצה ﹣ פיד מסוג RSS או עדכון Atom
  • אודיו
  • נתונים גיאוגרפיים ﹣ KML או נתונים גיאוגרפיים אחרים.
  • סוג קובץ אחר ﹣ סוג קובץ אחר שלא צוין כאן. הפניות אוטומטיות נכללות בקיבוץ הזה.
  • לא ידוע (נכשל) ﹣ אם הבקשה נכשלה, סוג הקובץ לא ידוע.
מה צריך לחפש
אם מוצגים זמני תגובה איטיים או בעיות זמינות, מומלץ לעיין בטבלה הזו כדי להבין את סוגי המשאבים ש-Google סורקת, ומדוע כתוצאה מכך מהירות הסריקה מאטה. האם Google שולחת בקשות להרבה תמונות קטנות שעדיף שיהיו חסומות? האם Google מבקשת משאבים שמתארחים באתר אחר שהוא פחות רספונסיבי? ניתן ללחוץ על סוגי הקבצים השונים ולהציג תרשים של זמן התגובה הממוצע לפי תאריך ושל מספר הבקשות לפי תאריך, כדי לראות אם העליות החדות במספר התגובות האיטיות מהסוג הזה הן ביחס לעליות חדות באיטיות כללית או בחוסר זמינות כללי.

מטרת הסריקה

  • גילוי: כתובת ה-URL המבוקשת מעולם לא נסרקה על ידי Google.
  • רענון: סריקה מחדש של דף ידוע.

אם יש לכם דפים שמשתנים בתדירות גבוהה ולא נסרקים מחדש בתדירות מספיקה, חשוב לוודא שהם נכללים ב-sitemap. לגבי דפים שמתעדכנים בתדירות נמוכה יותר, ייתכן שתצטרכו לבקש סריקה מחדש באופן ספציפי. אם הוספתם לאחרונה הרבה תוכן חדש, או אם שלחתם sitemap, הייתם אמורים לראות עלייה חדה במספר סריקות הגילוי באתר שלכם.

סוג Googlebot

סוג סוכן המשתמש המשמש לביצוע בקשת הסריקה. ל-Google יש מספר סוכני משתמש שסורקים מסיבות שונות וההתנהגות שלהם שונה.

הערכים האפשריים של סוג Googlebot:

  • סמארטפון: Googlebot לסמארטפונים.
  • מחשב: Googlebot למחשבים
  • תמונה: Googlebot לתמונות. אם התמונה נטענת כמשאב בדף, סוג ה-Googlebot נספר בתור טעינת משאב בדף ולא בתור תמונה.
  • סרטון: Googlebot לסרטונים. אם הסרטון נטען כמשאב בדף, סוג ה-Googlebot נספר בתור טעינת משאב בדף ולא בתור סרטון.
  • טעינת משאב בדף: אחזור משני למשאבים המשמשים את הדף. כאשר Google סורקת את הדף, היא מאחזרת משאבים מקושרים חשובים, כמו תמונות או קובצי CSS, כדי לעבד את הדף לפני הניסיון להוסיף אותו לאינדקס. זהו סוכן המשתמש שמבצע את בקשות המשאבים האלה.
  • AdsBot: אחד מהסורקים של AdsBot. אם הבחנתם בעלייה חדה בבקשות אלה, סביר להניח שיצרתם לאחרונה מספר יעדים חדשים למודעות דינמיות לרשת החיפוש באתר שלכם. מומלץ לעיין בקטע מדוע קצב הסריקה שלי עלה בחדות. AdsBot סורק כתובות URL בערך כל שבועיים.
  • StoreBot: הסורק של קניות המוצרים.
  • סוג סוכן אחר: סורק Google אחר שלא צוין כאן.

אם יש עליות חדות במספר הסריקות, כדאי לבדוק את סוג סוכן המשתמש. אם נראה שהעליות האלו נובעות מסורק AdsBot, מומלץ לעיין בקטע למה קצב הסריקה עלה בחדות.

פתרון בעיות

קצב הסריקה גבוה מדי

Googlebot כולל אלגוריתמים שמונעים ממנו ליצור עומס יתר על האתר שלכם במהלך הסריקה. עם זאת, אם מסיבה כלשהי אתם צריכים להגביל את קצב הסריקה, כאן מוסבר איך לעשות זאת.

למה קצב הסריקה עלה בחדות?

אם מעלים לאתר כמות גדולה של מידע חדש, או מפרסמים בו מידע מועיל במיוחד, ייתכן שתדירות הסריקה תהיה גבוהה מכפי שהייתם רוצים. למשל:

  • ביטלתם את חסימת הסריקה של קטע גדול מהאתר
  • הוספתם חלק חדש וגדול לאתר
  • הוספתם מספר רב של יעדים חדשים למודעות דינמיות לרשת החיפוש על ידי הוספת כללי URL_Equals או פידים של דפי נחיתה חדשים

האתר שלכם נסרק בקצב גבוה עד כדי כך שיש לו בעיות זמינות? כך תוכלו להגן עליו:

  1. בודקים איזה סורק של Google סורק את האתר שלכם בתדירות גבוהה מדי. מעיינים ביומני האתר או משתמשים בדוח הנתונים הסטטיסטיים של סריקה.
  2. עזרה מיידית:
    • אם רוצים פתרון פשוט, משתמשים ב-robots.txt כדי לחסום את הסריקה של הגורם המעמיס (Googlebot‏, AdsBot וכו'). עם זאת, עשוי לחלוף יום עד שהשינוי ייכנס לתוקף. לא מומלץ לחסום את הסריקה למשך זמן רב מדי, כי עלולה להיות לכך השפעה על הסריקה לטווח ארוך.
    • אם אתם יכולים לזהות עלייה בעומס ולהגיב עליה באופן דינמי, כדאי להחזיר שגיאת HTTP 503/429 כשמתקרבים למגבלה של יכולת השירות. עם זאת, אין להחזיר שגיאת 503 או 429 במשך יותר מיומיים או שלושה ימים, אחרת Google עלולה לסרוק את האתר בתדירות נמוכה יותר בטווח הארוך.
  3. יומיים או שלושה ימים לאחר מכן, אחרי שקצב הסריקה של Google הותאם, ניתן להסיר את החסימות של robots.txt או להפסיק להחזיר את קודי השגיאה 503 או 429.
  4. אם נוצר עומס רב מדי של סריקות AdsBot, כנראה יצרתם יותר מדי יעדים למודעות דינמיות לרשת החיפוש באתר שלכם באמצעות URL_Equals או פידים של דפי נחיתה. אם אין לשרת שלכם יכולת מספיקה לטיפול בסריקות האלה, עליכם להגביל את יעדי המודעות, להוסיף כתובות URL בקבוצות קטנות יותר או להגדיל את יכולת השירות. חשוב לדעת שהדפים ייסרקו על ידי AdsBot בכל שבועיים. לכן תצטרכו לפתור את הבעיה, אחרת היא תחזור על עצמה.

נראה שקצב הסריקה נמוך מדי

אי אפשר להורות ל-Google להגביר את קצב הסריקה. עם זאת, כאן מוסבר איך לנהל את הסריקה באתרים גדולים מאוד או באתרים שמתעדכנים בתדירות גבוהה.

באתרים קטנים או בינוניים, אם תגלו ש-Google אינה סורקת את כל האתר, נסו לעדכן את קובצי ה-sitemap של האתר ושימו לב שאתם לא חוסמים דפים כלשהם.

מדוע קצב הסריקה שלי ירד?

באופן כללי, קצב הסריקה של Google ​​צריך להיות יציב יחסית לאורך פרק זמן של שבוע או שניים. אם מופיעה ירידה פתאומית, ייתכן שהיא נובעת מאחת מבין הסיבות הבאות:

  • נוסף כלל חדש (או רחב במיוחד) לקובץ robots.txt. יש להקפיד ולחסום רק את המשאבים הרלוונטיים. אם נדרשים ל-Google משאבים ספציפיים כמו CSS או JavaScript כדי להבין את התוכן, חשוב לא לחסום אותם ל-Googlebot.
  • אם האתר מגיב לבקשות באיטיות, יתבצע ויסות לבקשות של Googlebot כדי למנוע עומס יתר על השרת. בדוח 'נתונים סטטיסטיים של סריקה' אפשר לראות אם האתר מגיב לאט יותר.
  • אם השיעור של השגיאות בחיבור לשרת עולה, יתבצע ויסות לבקשות של Googlebot כדי למנוע עומס יתר על השרת.
  • אם באתר מסוים יש מידע שמשתנה בתדירות נמוכה יותר, או שהוא לא באיכות גבוהה מאוד, ייתכן שלא נסרוק אותו בתדירות גבוהה. כדאי לבחון את האתר באופן אובייקטיבי, לקבל משוב ניטרלי מאנשים שלא קשורים לאתר, ולחשוב על דרכים או מקומות באתר שאפשר לשפר באופן כללי.

סך כל הסריקות שמופיע בדוח גבוה יותר מהסכום הכולל שרשום ביומני השרת של האתר שלכם

אם סך כל הסריקות שמוצג בדוח הזה גבוה בהרבה מבקשות הסריקה של Google ביומני השרת, יכול להיות ש-Google לא יכולה לסרוק את האתר כי הקובץ robots.txt לא היה זמין למשך יותר מדי זמן. במקרים כאלה, Google סופרת את הסריקות שהיו מתבצעות אם הקובץ robots.txt היה זמין, אך לא מבצעת את הקריאות האלו בפועל. בסטטוס האחזור של robots.txt תוכלו לבדוק אם זו הבעיה.

האם המידע הועיל?

איך נוכל לשפר את המאמר?

צריכים עזרה נוספת?

תוכלו לנסות את האפשרויות הבאות:

חיפוש
ניקוי החיפוש
סגירת החיפוש
התפריט הראשי
6576798979348534143
true
חיפוש במרכז העזרה
true
true
true
true
true
83844
false
false