מידע על robots.txt

מידע נוסף על קובצי robots.txt

מהו קובץ robots.txt?

קובץ robots.txt מודיע לסורקי מנוע החיפוש אילו דפים או קבצים הסורק יכול או לא יכול לבקש מהאתר. פעולה זו משמשת בעיקר למניעת עומס בקשות על האתר; זהו לא מנגנון למניעת הופעת אתר אינטרנט ב-Google. כדי למנוע מדף אינטרנט להופיע ב-Google, צריך להשתמש בתגים או הנחיות מסוג noindex, או להגן על הדף באמצעות סיסמה.

למה משמש קובץ robots.txt?

robots.txt משמש בעיקר כדי לנהל תנועת סורקים לאתר ומדי פעם כדי למנוע מדף להופיע ב-Google, בהתאם לסוג הקובץ:

סוג דף ניהול טראפיק הסתרה מ-Google תיאור
דף אינטרנט

בדפי אינטרנט (HTML, PDF או פורמטים אחרים מסוג non-media ש-Google יכולה לקרוא), ניתן להשתמש ב-robots.txt כדי לנהל תעבורת סורקים אם חושבים שתדירות הסריקה בשרת תהיה גבוהה מדי בשל בקשות מהסורק של Google או כדי להימנע מסריקה של דפים לא חשובים או דומים באתר.

אין להשתמש בקובץ robots.txt כאמצעי להסתרת דפי האינטרנט מתוצאות החיפוש של Google. משום שאם דפים אחרים מפנים אל הדף שלכם עם טקסט תיאורי, עדיין ניתן להוסיף את הדף לאינדקס בלי לבקר בו. אם  רוצים לחסום את הדף מתוצאות החיפוש, יש להשתמש בשיטה אחרת, כמו למשל הגנה באמצעות סיסמה או הנחיית noindex.

אם דף האינטרנט חסום עם קובץ robots.txt, הוא עדיין יכול להופיע בתוצאות החיפוש, אבל תוצאת החיפוש לא תכלול תיאור ותיראה בערך כך. קובצי תמונה, קובצי וידאו, קובצי PDF וקבצים נוספים שאינם קובצי HTML לא ייכללו. אם הדף שלכם מופיע בתוצאת החיפוש הזו ורוצים לתקן אותה, מסירים את רשומת ה-robots.txt החוסמת את הדף. אם רוצים להסתיר את הדף לחלוטין מהחיפוש, משתמשים בשיטה אחרת.

קובץ מדיה

משתמשים ב-robots.txt כדי לנהל את תעבורת הסריקה וגם כדי למנוע מקובצי תמונה, וידאו ואודיו מלהופיע בתוצאות חיפוש Google. (יש לשים לב שפעולה זו לא תמנע מדפים או ממשתמשים אחרים ליצור קישור עם קובץ התמונה/וידאו/אודיו שלכם).

קובץ משאבים

ניתן להשתמש בקובץ robots.txt כדי לחסום קובצי משאבים כמו למשל קובצי תמונה, סקריפט או סגנון לא חשובים. אם חושבים שדפים הטעונים ללא משאבים אלה לא יושפעו מכך באופן משמעותי. עם זאת, אם היעדר משאבים אלה יקשה על הסורק של Google להבין את הדף, לא כדאי לחסום אותם, אחרת Google לא תצליח לנתח בצורה טובה את הדפים שתלויים במשאבים אלה.

שימוש בשירות אירוח אתרים

אם משתמשים בשירות אירוח אתרים כמו WIX‏, Drupal או Blogger, יכול להיות שלא יהיה צורך (או שלא תהיה אפשרות) לערוך את קובץ ה-robots.txt ישירות. במקום זאת, הספק שלכם יכול לחשוף קבוצת דפים או מנגנון אחר כדי ליידע את מנוע החיפוש אם יש או אין צורך לסרוק את הדף.

כדי לראות אם הדף נסרק על-ידי Google, יש לחפש את כתובת האתר של הדף ב-Google.

אם רוצים להסתיר את הדף (או לבטל את ההסתרה), מוסיפים (או מסירים) את דרישות הכניסה של הדף ומחפשים ב-Google את ההוראות לשינוי מידת החשיפה במנועי החיפוש במארח של האתר, למשל: הסתרת דף של Wix ממנועי החיפוש

הבנת המגבלות של robots.txt

לפני שיוצרים או עורכים robots.txt, צריך להכיר את המגבלות של שיטה זו לחסימת כתובת אתר. לעתים, מומלץ לשקול להשתמש במנגנונים אחרים על מנת לוודא שכתובות האתרים שלכם אינן ניתנות לאיתור באינטרנט.

  • ההוראות ב-Robots.txt הן הנחיות בלבד
    לא ניתן לקבוע את התנהגות הסורקים באתר שלך בעזרת ההוראות בקובצי robots.txt; הוראות אלה הן הנחיות בלבד המיועדות לסורקים הניגשים לאתר. Googlebot וסורקי אינטרנט אחרים ממקורות אמינים פועלים בהתאם להוראות בקובץ robots.txt, לעומת סורקים אחרים שעלולים לא לציית להן. לכן, אם אתה מעוניין שסורקי אינטרנט לא ייגשו למידע, עדיף להשתמש בשיטות חסימה אחרות, כגון הגנה על קבצים פרטיים בשרת באמצעות סיסמה.
  • סורקים שונים מפרשים תחביר בדרך שונה
    אף שסורקי אינטרנט ממקורות אמינים פועלים לפי ההנחיות בקובץ robots.txt, כל סורק עשוי לפרש את ההנחיות בדרך שונה. עליכם לדעת את התחביר הנכון לפנייה לסורקי אינטרנט שונים, שכן סורקים מסוימים עשויים לא להבין הוראות מסוימות.
  • ניתן בכל זאת להוסיף לאינדקס דף חסום אם הקישור אליו מגיע מאתרים אחרים
    Google לא תסרוק תוכן או תיצור אינדקס של תוכן שנחסם על ידי robots.txt. למרות זאת, אנחנו עדיין עשויים למצוא כתובת אתר שאינה מורשה וליצור לה אינדקס אם הקישור אליה מגיע ממקומות אחרים באינטרנט. כתוצאה מכך, כתובת האתר, וייתכן שאף מידע אחר הזמין באופן ציבורי, כגון טקסט מקושר בקישורים לדף, עדיין יופיעו בתוצאות החיפוש של Google. כדי לוודא שכתובת האתר שלכם לא תופיע בתוצאות החיפוש של Google צריך להגן על הקבצים בשרת באמצעות סיסמה או באמצעות שימוש בכותרת תגובה או במטא תג מסוג nonindex (או להסיר את הדף לגמרי).
שימו לב: אם תשלבו מספר הנחיות של סריקה ויצירת אינדקס, עלול להיווצר מצב שבו הנחיות מסוימות מבטלות הנחיות אחרות. ניתן לקבל מידע כיצד להגדיר הנחיות אלה כראוי בסעיף שילוב סריקה עם הוספה לאינדקס / הצגה בתיעוד של Google Developers.

בדיקת דף לאיתור חסימות robots.txt

ניתן לבדוק אם דף או משאב חסום על-ידי כלל robots.txt.

כדי לבדוק אם קיימות הנחיות noindex, משתמשים בכלי לבדיקת כתובות אתרים.

האם המאמר היה מועיל?
איך נוכל לשפר את המאמר?