​דוח robots.txt

איך לבדוק אם Google יכולה לעבד את קובצי robots.txt שלכם

בדוח robots.txt אפשר לראות את קובצי robots.txt של 20 המארחים המובילים באתר שלכם ש-Google מצאה, את הפעם האחרונה שהקבצים נסרקו ואת האזהרות או השגיאות שהתגלו. הדוח מאפשר גם לבקש סריקה חוזרת של קובץ robots.txt במקרי חירום.

המערכת משתמשת בקובץ robots.txt כדי למנוע ממנועי חיפוש לסרוק את האתר. אם רוצים למנוע הצגה של תוכן בתוצאות החיפוש, צריך להשתמש בתג noindex.

הדוח הזה זמין רק לנכסים ברמת הדומיין, כלומר:

פתיחת דוח robots.txt

 

הצגת קובצי robots.txt וסטטוס הסריקה

בנכס דומיין, הדוח כולל קובצי robots.txt מ-20 המארחים המובילים בנכס הזה.

לגבי כל קובץ robots.txt שנבדק על ידי Search Console, ניתן לראות את הפרטים הבאים:

  • נתיב קובץ – כתובת ה-URL המלאה ש-Google בדקה אם יש בה קובץ robots.txt. כתובת URL תופיע בדוח רק אם הסטטוס שלה היה 'אוחזר' או 'לא אוחזר' מתישהו במהלך 30 הימים האחרונים. ניתן לעיין בקטע המיקום של קובצי robots.txt.
  • סטטוס אחזור – הסטטוס של בקשת האחזור האחרונה של הקובץ הזה. אלה הערכים האפשריים:
    • לא אוחזר – לא נמצא (404): קרתה שגיאה מסוג 404 (הקובץ לא קיים) בזמן בקשת הקובץ הזה. אם פרסמתם קובץ robots.txt בכתובת ה-URL הרשומה אבל השגיאה הזו מופיעה, נסו לבדוק את כתובת ה-URL כדי לראות אם יש בעיות של זמינות. קובץ שהסטטוס שלו הוא לא נמצא (404) במשך 30 ימים לא יופיע יותר בדוח (אבל Google תמשיך לבדוק אותו ברקע). אם לא מופיעות שגיאת אחזור של קובץ robots.txt, זה תקין ופירוש הדבר הוא ש-Google יכולה לסרוק את כל כתובות ה-URL באתר, אבל מומלץ לקרוא איך Google פועלת כשיש שגיאה בקובץ robots.txt כדי לקבל פרטים מלאים.
    • לא אוחזר – כל סיבה אחרת: הייתה בעיה אחרת בזמן בקשת הקובץ הזה. ניתן לעיין ברשימת הבעיות שקשורות להוספה לאינדקס.
    • אוחזר: בניסיון הסריקה האחרון חזר קובץ robots.txt. בעיות שהתגלו במהלך ניתוח הקובץ יופיעו בעמודה בעיות. Google מתעלמת מהשורות שיש בהן בעיות ומשתמשת באלה שהיא יכולה לנתח.
  • תאריך בדיקה – הפעם האחרונה ש-Google ניסתה לסרוק את כתובת ה-URL הזו, לפי הזמן המקומי.
  • גודל – הגודל בבייטים של הקובץ שאוחזר. אם ניסיון האחזור האחרון נכשל, השדה הזה יהיה ריק.
  • בעיות – בטבלה מוצג מספר הבעיות שקשורות לניתוח של תוכן הקובץ בפעם האחרונה שהקובץ אוחזר. אם יש שגיאות, אי אפשר להשתמש בכּלל. אם יש אזהרות, אפשר להשתמש בכּלל. ניתן לקרוא איך המערכת של Google פועלת כשיש שגיאה בקובץ robots.txt. כדי לפתור בעיות שקשורות לניתוח, משתמשים בכלי לתיקוף קובצי robots.txt.

הצגת הגרסה האחרונה שאוחזרה

כדי לראות את הגרסה האחרונה של קובץ robots.txt שאוחזרה, לוחצים על הקובץ ברשימת הקבצים בדוח. אם יש שגיאות או אזהרות בקובץ robots.txt, הן יודגשו בתוכן הקובץ המוצג. אפשר לעבור בין השגיאות והאזהרות באמצעות מקשי החיצים.

הצגת גרסאות קודמות שאוחזרו

כדי להציג בקשות אחזור של קובץ robots.txt נתון ב-30 הימים האחרונים, לוחצים על הקובץ ברשימת הקבצים בדוח, ואז לוחצים על גרסאות. כדי להציג את תוכן הקובץ בגרסה הזו, לוחצים על הגרסה. בקשה נכללת בהיסטוריה רק אם הקובץ שאוחזר או תוצאת האחזור שונים מהבקשה הקודמת לאחזור הקובץ.

אם Google נתקלה בשגיאת אחזור בניסיון האחזור האחרון, Google תשתמש בגרסה האחרונה שאוחזרה ללא שגיאות במשך עד 30 ימים.

בקשה לסריקה חוזרת

אחרי שמתקנים שגיאה או מבצעים שינוי קריטי, אפשר לבקש סריקה חוזרת של קובץ robots.txt.

מתי צריך לבקש סריקה חוזרת

בדרך כלל לא צריך לבקש סריקה חוזרת של קובץ robots.txt, כי Google סורקת מחדש את קובצי robots.txt לעיתים קרובות. עם זאת, יכול להיות שתרצו לבקש סריקה חוזרת של קובץ robots.txt בנסיבות הבאות:

  • שיניתם את הכללים בקובץ robots.txt כדי לבטל את החסימה של כמה כתובות URL חשובות, ואתם רוצים ליידע את Google במהירות (חשוב לזכור שהפעולה הזו לא מבטיחה שכתובות URL שהחסימה שלהן בוטלה ייסרקו מחדש באופן מיידי).
  • תיקנתם שגיאת אחזור או שגיאה קריטית אחרת.

איך לבקש סריקה חוזרת

כדי לבקש סריקה חוזרת, לוחצים על סמל ההגדרות הנוספות לצד הקובץ הרצוי ברשימה של קובצי robots, ואז לוחצים על בקשה לסריקה חוזרת.

אתרים בשירותים לאירוח אתרים

אם האתר שלכם מתארח בשירות לאירוח אתרים, יכול להיות שלא יהיה קל לערוך את קובץ robots.txt. במקרה כזה צריך לעיין במסמכי התיעוד של מארח האתר, שבהם מוסבר איך למנוע מ-Google לסרוק דפים ספציפיים או להוסיף אותם לאינדקס (שימו לב: רוב המשתמשים רוצים למנוע את ההצגה של קבצים בחיפוש Google, ולא את הסריקה של הקבצים על ידי Google. אם זה מה שאתם רוצים לעשות, עליכם לחפש בשירות האירוח מידע על חסימת ההצגה של דפים במנועי חיפוש).

מה קורה כש-Google לא יכולה לאחזר או לקרוא קובץ robots.txt

אם לא נמצא קובץ robots.txt עבור דומיין או תת-דומיין, Google מניחה שהיא יכולה לסרוק כל כתובת URL אצל המארח הזה.

אם Google מוצאת קובץ robots.txt אבל לא יכולה לאחזר אותו, Google פועלת באופן הבא:

  1. במהלך 12 השעות הראשונות, Google מפסיקה לסרוק את האתר אבל ממשיכה לנסות לאחזר את קובץ robots.txt.
  2. אם Google לא מצליחה לאחזר גרסה חדשה, במהלך 30 הימים הבאים Google תשתמש בגרסה הטובה האחרונה, ותמשיך לנסות לאחזר גרסה חדשה. אפשר לראות את הגרסה הטובה האחרונה בהיסטוריית הגרסאות.
  3. אם השגיאות לא יתוקנו אחרי 30 ימים:
    • אם האתר זמין ל-Google,‏ Google תפעל כאילו אין קובץ robots.txt (אבל תמשיך לבדוק אם יש גרסה חדשה).
    • אם יש באתר בעיות של זמינות לכלל המשתמשים, Google תפסיק לסרוק את האתר ותמשיך לבקש מדי פעם את קובץ robots.txt.

אם Google מוצאת קובץ robots.txt ומצליחה לאחזר אותו: Google קוראת את הקובץ, שורה אחרי שורה. אם יש שגיאה בשורה מסוימת או שאי אפשר לנתח אותה וליצור ממנה כלל robots.txt, המערכת תדלג עליה. אם אין שורות תקינות בקובץ, Google מתייחסת אליו כאל קובץ robots.txt ריק, כלומר לא יכולו כללים באתר.

המיקום של קובצי robots.txt

מונחים:

  • פרוטוקול (או סכימה) הוא HTTP או HTTPS.
  • מארח הוא כל מה שמופיע בכתובת ה-URL אחרי הפרוטוקול (http://‎ או https:/‎) עד לנתיב. למשל, המארח m.de.example.com יכול להצביע על 3 מארחים אפשריים: m.de.example.com,‏ de.example.com ו-example.com, ולכל אחד מהם יכול להיות קובץ robots.txt משלו.
  • מקור הוא הפרוטוקול + המארח. למשל: https://example.com/‎ או https://m.example.co.es/‎.

לפי RFC 9309, קובץ robots.txt חייב להיות ברמה הבסיסית (root) של כל שילוב של פרוטוקול ומארח באתר.

בנכס דומיין:

  1. מערכת Search Console בוחרת את 20 המארחים המובילים, כשהם ממוינים לפי קצב הסריקה. לכל דומיין יכולים להופיע בדוח עד 2 מקורות, כך שבטבלה יכולות להופיע עד 40 שורות. אם לא מצאתם את כתובת ה-URL של קובץ robots.txt של אחד מהמארחים, עליכם ליצור נכס דומיין בשביל תת-הדומיין החסר.
  2. מערכת Search Console בודקת שתי כתובות URL לכל מארח:
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. אם המערכת תדווח שקובץ robots.txt בכתובת ה-URL המבוקשת לא נמצא במשך 30 ימים, מערכת Search Console לא תציג את כתובת ה-URL בדוח הזה, אבל Google תמשיך לבדוק את כתובת ה-URL ברקע. בכל תוצאה אחרת, כתובת ה-URL שנבדקה תוצג בדוח.

בנכס עם קידומת של כתובת URL ברמת המארח (למשל: https://example.com/‎), מערכת Search Console בודקת רק מקור אחד של הנכס הזה. כלומר: לגבי הנכס https://example.com, מערכת Search Console בודקת רק את https://example.com/robots.txt ולא את http://example.com/robots.txt או https://m.example.com/robots.txt.

משימות נפוצות

הצגת קובץ robots.txt

כדי לפתוח קובץ robots.txt שמופיע בדוח הזה, לוחצים על הקובץ ברשימה של קובצי robots.txt. כדי לפתוח את הקובץ בדפדפן, לוחצים על פתיחת קובץ robots.txt הפעיל.

ניתן לפתוח כל קובץ robots.txt באינטרנט באמצעות הדפדפן. בהמשך מוסבר לאיזו כתובת URL צריך להיכנס.

איפה נמצאים קובצי robots.txt

קובץ robots.txt נמצא ברמה הבסיסית (root) של פרוטוקול ודומיין. אפשר להגיע לכתובת ה-URL שלו על ידי הסרת כל את מה שמופיע אחרי המארח (והפורט, אם קיים) בכתובת ה-URL של הקובץ ולהוסיף את המחרוזת '‎/robots.txt'. אם קיים קובץ robots.txt, ניתן להיכנס אליו דרך הדפדפן. קובצי robots.txt לא עוברים בירושה לתת-דומיינים או לדומיינים הורים, וכל דף יכול להיות מושפע רק מקובץ robots.txt אחד. דוגמאות:

כתובת ה-URL של הקובץ כתובת ה-URL של קובץ robots.txt שיכול להשפיע על קבצים
http://example.com/home http://example.com/robots.txt
https://m.de.example.com/some/page/here/mypage https://m.de.example.com/robots.txt
https://example.com?pageid=234#myanchor https://example.com/robots.txt
https://images.example.com/flowers/daffodil.png https://images.example.com/robots.txt

איך לבדוק איזה קובץ robots.txt משפיע על דף או תמונה

כדי למצוא את כתובת ה-URL של קובץ robots.txt שמשפיע על דף או תמונה:

  1. מוצאים את כתובת ה-URL המדויקת של הדף או התמונה. לגבי תמונה, לוחצים לחיצה ימנית בדפדפן Google Chrome ובוחרים באפשרות העתקת כתובת ה-URL של התמונה.
  2. מסירים את הסיומת של כתובת ה-URL אחרי הדומיין ברמה העליונה (לדוגמה: ‎.com,‏ ‎.org,‏ ‎.co.il) ומוסיפים את המחרוזת '‎/robots.txt' בסוף. למשל, קובץ robots.txt של https://images.example.com/flowers/daffodil.png הוא https://images.example.com/robots.txt.
  3. פותחים את כתובת ה-URL בדפדפן כדי לוודא שהיא קיימת. אם לא ניתן לפתוח את הקובץ בדפדפן, סימן שהוא לא קיים.

איך לבדוק אם Google חסומה על ידי קובץ robots.txt

מידע נוסף

האם המידע הועיל?

איך נוכל לשפר את המאמר?

צריכים עזרה נוספת?

תוכלו לנסות את האפשרויות הבאות:

חיפוש
ניקוי החיפוש
סגירת החיפוש
התפריט הראשי
15701200234973944418
true
חיפוש במרכז העזרה
true
true
true
true
true
83844
false
false