בדוח robots.txt אפשר לראות את קובצי robots.txt של 20 המארחים המובילים באתר שלכם ש-Google מצאה, את הפעם האחרונה שהקבצים נסרקו ואת האזהרות או השגיאות שהתגלו. הדוח מאפשר גם לבקש סריקה חוזרת של קובץ robots.txt במקרי חירום.
הדוח הזה זמין רק לנכסים ברמת הדומיין, כלומר:
- נכס דומיין (למשל example.com או m.example.com), או
- נכס עם קידומת של כתובת URL ללא נתיב, כמו https://example.com/ אבל לא https://example.com/path/.
הצגת קובצי robots.txt וסטטוס הסריקה
בנכס דומיין, הדוח כולל קובצי robots.txt מ-20 המארחים המובילים בנכס הזה.
לגבי כל קובץ robots.txt שנבדק על ידי Search Console, ניתן לראות את הפרטים הבאים:
- נתיב קובץ – כתובת ה-URL המלאה ש-Google בדקה אם יש בה קובץ robots.txt. כתובת URL תופיע בדוח רק אם הסטטוס שלה היה 'אוחזר' או 'לא אוחזר' מתישהו במהלך 30 הימים האחרונים. ניתן לעיין בקטע המיקום של קובצי robots.txt.
- סטטוס אחזור – הסטטוס של בקשת האחזור האחרונה של הקובץ הזה. אלה הערכים האפשריים:
- לא אוחזר – לא נמצא (404): קרתה שגיאה מסוג 404 (הקובץ לא קיים) בזמן בקשת הקובץ הזה. אם פרסמתם קובץ robots.txt בכתובת ה-URL הרשומה אבל השגיאה הזו מופיעה, נסו לבדוק את כתובת ה-URL כדי לראות אם יש בעיות של זמינות. קובץ שהסטטוס שלו הוא לא נמצא (404) במשך 30 ימים לא יופיע יותר בדוח (אבל Google תמשיך לבדוק אותו ברקע). אם לא מופיעות שגיאת אחזור של קובץ robots.txt, זה תקין ופירוש הדבר הוא ש-Google יכולה לסרוק את כל כתובות ה-URL באתר, אבל מומלץ לקרוא איך Google פועלת כשיש שגיאה בקובץ robots.txt כדי לקבל פרטים מלאים.
- לא אוחזר – כל סיבה אחרת: הייתה בעיה אחרת בזמן בקשת הקובץ הזה. ניתן לעיין ברשימת הבעיות שקשורות להוספה לאינדקס.
- אוחזר: בניסיון הסריקה האחרון חזר קובץ robots.txt. בעיות שהתגלו במהלך ניתוח הקובץ יופיעו בעמודה בעיות. Google מתעלמת מהשורות שיש בהן בעיות ומשתמשת באלה שהיא יכולה לנתח.
- תאריך בדיקה – הפעם האחרונה ש-Google ניסתה לסרוק את כתובת ה-URL הזו, לפי הזמן המקומי.
- גודל – הגודל בבייטים של הקובץ שאוחזר. אם ניסיון האחזור האחרון נכשל, השדה הזה יהיה ריק.
- בעיות – בטבלה מוצג מספר הבעיות שקשורות לניתוח של תוכן הקובץ בפעם האחרונה שהקובץ אוחזר. אם יש שגיאות, אי אפשר להשתמש בכּלל. אם יש אזהרות, אפשר להשתמש בכּלל. ניתן לקרוא איך המערכת של Google פועלת כשיש שגיאה בקובץ robots.txt. כדי לפתור בעיות שקשורות לניתוח, משתמשים בכלי לתיקוף קובצי robots.txt.
הצגת הגרסה האחרונה שאוחזרה
כדי לראות את הגרסה האחרונה של קובץ robots.txt שאוחזרה, לוחצים על הקובץ ברשימת הקבצים בדוח. אם יש שגיאות או אזהרות בקובץ robots.txt, הן יודגשו בתוכן הקובץ המוצג. אפשר לעבור בין השגיאות והאזהרות באמצעות מקשי החיצים.
הצגת גרסאות קודמות שאוחזרו
כדי להציג בקשות אחזור של קובץ robots.txt נתון ב-30 הימים האחרונים, לוחצים על הקובץ ברשימת הקבצים בדוח, ואז לוחצים על גרסאות. כדי להציג את תוכן הקובץ בגרסה הזו, לוחצים על הגרסה. בקשה נכללת בהיסטוריה רק אם הקובץ שאוחזר או תוצאת האחזור שונים מהבקשה הקודמת לאחזור הקובץ.
אם Google נתקלה בשגיאת אחזור בניסיון האחזור האחרון, Google תשתמש בגרסה האחרונה שאוחזרה ללא שגיאות במשך עד 30 ימים.
בקשה לסריקה חוזרת
אחרי שמתקנים שגיאה או מבצעים שינוי קריטי, אפשר לבקש סריקה חוזרת של קובץ robots.txt.
מתי צריך לבקש סריקה חוזרת
בדרך כלל לא צריך לבקש סריקה חוזרת של קובץ robots.txt, כי Google סורקת מחדש את קובצי robots.txt לעיתים קרובות. עם זאת, יכול להיות שתרצו לבקש סריקה חוזרת של קובץ robots.txt בנסיבות הבאות:
- שיניתם את הכללים בקובץ robots.txt כדי לבטל את החסימה של כמה כתובות URL חשובות, ואתם רוצים ליידע את Google במהירות (חשוב לזכור שהפעולה הזו לא מבטיחה שכתובות URL שהחסימה שלהן בוטלה ייסרקו מחדש באופן מיידי).
- תיקנתם שגיאת אחזור או שגיאה קריטית אחרת.
איך לבקש סריקה חוזרת
כדי לבקש סריקה חוזרת, לוחצים על סמל ההגדרות הנוספות לצד הקובץ הרצוי ברשימה של קובצי robots, ואז לוחצים על בקשה לסריקה חוזרת.
אתרים בשירותים לאירוח אתרים
אם האתר שלכם מתארח בשירות לאירוח אתרים, יכול להיות שלא יהיה קל לערוך את קובץ robots.txt. במקרה כזה צריך לעיין במסמכי התיעוד של מארח האתר, שבהם מוסבר איך למנוע מ-Google לסרוק דפים ספציפיים או להוסיף אותם לאינדקס (שימו לב: רוב המשתמשים רוצים למנוע את ההצגה של קבצים בחיפוש Google, ולא את הסריקה של הקבצים על ידי Google. אם זה מה שאתם רוצים לעשות, עליכם לחפש בשירות האירוח מידע על חסימת ההצגה של דפים במנועי חיפוש).
מה קורה כש-Google לא יכולה לאחזר או לקרוא קובץ robots.txt
אם לא נמצא קובץ robots.txt עבור דומיין או תת-דומיין, Google מניחה שהיא יכולה לסרוק כל כתובת URL אצל המארח הזה.
אם Google מוצאת קובץ robots.txt אבל לא יכולה לאחזר אותו, Google פועלת באופן הבא:
- במהלך 12 השעות הראשונות, Google מפסיקה לסרוק את האתר אבל ממשיכה לנסות לאחזר את קובץ robots.txt.
- אם Google לא מצליחה לאחזר גרסה חדשה, במהלך 30 הימים הבאים Google תשתמש בגרסה הטובה האחרונה, ותמשיך לנסות לאחזר גרסה חדשה. אפשר לראות את הגרסה הטובה האחרונה בהיסטוריית הגרסאות.
- אם השגיאות לא יתוקנו אחרי 30 ימים:
- אם האתר זמין ל-Google, Google תפעל כאילו אין קובץ robots.txt (אבל תמשיך לבדוק אם יש גרסה חדשה).
- אם יש באתר בעיות של זמינות לכלל המשתמשים, Google תפסיק לסרוק את האתר ותמשיך לבקש מדי פעם את קובץ robots.txt.
אם Google מוצאת קובץ robots.txt ומצליחה לאחזר אותו: Google קוראת את הקובץ, שורה אחרי שורה. אם יש שגיאה בשורה מסוימת או שאי אפשר לנתח אותה וליצור ממנה כלל robots.txt, המערכת תדלג עליה. אם אין שורות תקינות בקובץ, Google מתייחסת אליו כאל קובץ robots.txt ריק, כלומר לא יכולו כללים באתר.
המיקום של קובצי robots.txt
מונחים:
- פרוטוקול (או סכימה) הוא HTTP או HTTPS.
- מארח הוא כל מה שמופיע בכתובת ה-URL אחרי הפרוטוקול (http:// או https:/) עד לנתיב. למשל, המארח m.de.example.com יכול להצביע על 3 מארחים אפשריים: m.de.example.com, de.example.com ו-example.com, ולכל אחד מהם יכול להיות קובץ robots.txt משלו.
- מקור הוא הפרוטוקול + המארח. למשל: https://example.com/ או https://m.example.co.es/.
לפי RFC 9309, קובץ robots.txt חייב להיות ברמה הבסיסית (root) של כל שילוב של פרוטוקול ומארח באתר.
- מערכת Search Console בוחרת את 20 המארחים המובילים, כשהם ממוינים לפי קצב הסריקה. לכל דומיין יכולים להופיע בדוח עד 2 מקורות, כך שבטבלה יכולות להופיע עד 40 שורות. אם לא מצאתם את כתובת ה-URL של קובץ robots.txt של אחד מהמארחים, עליכם ליצור נכס דומיין בשביל תת-הדומיין החסר.
- מערכת Search Console בודקת שתי כתובות URL לכל מארח:
- http://<host>/robots.txt
- https://<host>/robots.txt
- אם המערכת תדווח שקובץ robots.txt בכתובת ה-URL המבוקשת לא נמצא במשך 30 ימים, מערכת Search Console לא תציג את כתובת ה-URL בדוח הזה, אבל Google תמשיך לבדוק את כתובת ה-URL ברקע. בכל תוצאה אחרת, כתובת ה-URL שנבדקה תוצג בדוח.
בנכס עם קידומת של כתובת URL ברמת המארח (למשל: https://example.com/), מערכת Search Console בודקת רק מקור אחד של הנכס הזה. כלומר: לגבי הנכס https://example.com, מערכת Search Console בודקת רק את https://example.com/robots.txt ולא את http://example.com/robots.txt או https://m.example.com/robots.txt.
משימות נפוצות
הצגת קובץ robots.txt
כדי לפתוח קובץ robots.txt שמופיע בדוח הזה, לוחצים על הקובץ ברשימה של קובצי robots.txt. כדי לפתוח את הקובץ בדפדפן, לוחצים על פתיחת קובץ robots.txt הפעיל.
ניתן לפתוח כל קובץ robots.txt באינטרנט באמצעות הדפדפן. בהמשך מוסבר לאיזו כתובת URL צריך להיכנס.
קובץ robots.txt נמצא ברמה הבסיסית (root) של פרוטוקול ודומיין. אפשר להגיע לכתובת ה-URL שלו על ידי הסרת כל את מה שמופיע אחרי המארח (והפורט, אם קיים) בכתובת ה-URL של הקובץ ולהוסיף את המחרוזת '/robots.txt'. אם קיים קובץ robots.txt, ניתן להיכנס אליו דרך הדפדפן. קובצי robots.txt לא עוברים בירושה לתת-דומיינים או לדומיינים הורים, וכל דף יכול להיות מושפע רק מקובץ robots.txt אחד. דוגמאות:
כתובת ה-URL של הקובץ | כתובת ה-URL של קובץ robots.txt שיכול להשפיע על קבצים |
---|---|
http://example.com/home | http://example.com/robots.txt |
https://m.de.example.com/some/page/here/mypage | https://m.de.example.com/robots.txt |
https://example.com?pageid=234#myanchor | https://example.com/robots.txt |
https://images.example.com/flowers/daffodil.png | https://images.example.com/robots.txt |
איך לבדוק איזה קובץ robots.txt משפיע על דף או תמונה
כדי למצוא את כתובת ה-URL של קובץ robots.txt שמשפיע על דף או תמונה:
- מוצאים את כתובת ה-URL המדויקת של הדף או התמונה. לגבי תמונה, לוחצים לחיצה ימנית בדפדפן Google Chrome ובוחרים באפשרות העתקת כתובת ה-URL של התמונה.
- מסירים את הסיומת של כתובת ה-URL אחרי הדומיין ברמה העליונה (לדוגמה: .com, .org, .co.il) ומוסיפים את המחרוזת '/robots.txt' בסוף. למשל, קובץ robots.txt של https://images.example.com/flowers/daffodil.png הוא https://images.example.com/robots.txt.
- פותחים את כתובת ה-URL בדפדפן כדי לוודא שהיא קיימת. אם לא ניתן לפתוח את הקובץ בדפדפן, סימן שהוא לא קיים.
איך לבדוק אם Google חסומה על ידי קובץ robots.txt
- אם רוצים לבדוק אם כתובת URL ספציפית חסומה על ידי קובץ robots.txt, אפשר לבדוק את הזמינות של כתובת ה-URL באמצעות הכלי לבדיקת כתובות URL.
- אם רוצים לבדוק כלל robots.txt ספציפי ביחס לקובץ שלא נמצא עדיין באינטרנט, או לבדוק כלל חדש, אפשר להשתמש בכלי של צד שלישי לבדיקת קובצי robots.txt.