מידע על robots.txt

מבוא ל-robots.txt

מידע בסיסי על קובצי robots.txt: מהם, ואיך אפשר להשתמש בהם

מהו קובץ robots.txt?

קובץ robots.txt מודיע לסורקי מנוע החיפוש אילו דפים או קבצים הסורק יכול או לא יכול לבקש מהאתר. פעולה זו משמשת בעיקר למניעת עומס בקשות על האתר; זהו לא מנגנון למניעת הופעת אתר אינטרנט ב-Google. כדי למנוע מדף אינטרנט להופיע ב-Google, צריך להשתמש בתגים או הנחיות מסוג noindex, או להגן על הדף באמצעות סיסמה.

למה משמש קובץ robots.txt?

robots.txt משמש בעיקר כדי לנהל תנועת סורקים לאתר ומדי פעם כדי למנוע מדף להופיע ב-Google, בהתאם לסוג הקובץ:

סוג דף ניהול טראפיק הסתרה מ-Google תיאור
דף אינטרנט

בדפי אינטרנט (HTML, PDF או פורמטים אחרים מסוג non-media ש-Google יכולה לקרוא), ניתן להשתמש ב-robots.txt כדי לנהל תעבורת סורקים אם חושבים שתדירות הסריקה בשרת תהיה גבוהה מדי בשל בקשות מהסורק של Google או כדי להימנע מסריקה של דפים לא חשובים או דומים באתר.

אין להשתמש בקובץ robots.txt כאמצעי להסתרת דפי האינטרנט מתוצאות החיפוש של Google. משום שאם דפים אחרים מפנים אל הדף שלכם עם טקסט תיאורי, עדיין ניתן להוסיף את הדף לאינדקס בלי לבקר בו. אם  רוצים לחסום את הדף מתוצאות החיפוש, יש להשתמש בשיטה אחרת, כמו למשל הגנה באמצעות סיסמה או הנחיית noindex.

אם דף האינטרנט חסום באמצעות קובץ robots.txt, הוא עדיין יכול להופיע בתוצאות החיפוש, אבל תוצאת החיפוש לא תכלול תיאור ותיראה בערך כך. קובצי תמונה, קובצי וידאו, קובצי PDF וקבצים נוספים שאינם קובצי HTML לא ייכללו. אם הדף שלכם מופיע בתוצאת החיפוש הזו ורוצים לתקן אותה, מסירים את רשומת ה-robots.txt החוסמת את הדף. אם רוצים להסתיר את הדף לחלוטין מהחיפוש, משתמשים בשיטה אחרת.

קובץ מדיה

משתמשים ב-robots.txt כדי לנהל את תעבורת הסריקה וגם כדי למנוע מקובצי תמונה, וידאו ואודיו מלהופיע בתוצאות חיפוש Google. (יש לשים לב שפעולה זו לא תמנע מדפים או ממשתמשים אחרים ליצור קישור עם קובץ התמונה/וידאו/אודיו שלכם).

קובץ משאבים

ניתן להשתמש בקובץ robots.txt כדי לחסום קובצי משאבים כמו למשל קובצי תמונה, סקריפט או סגנון לא חשובים. אם חושבים שדפים הטעונים ללא משאבים אלה לא יושפעו מכך באופן משמעותי. עם זאת, אם היעדר משאבים אלה יקשה על הסורק של Google להבין את הדף, לא כדאי לחסום אותם, אחרת Google לא תצליח לנתח בצורה טובה את הדפים שתלויים במשאבים אלה.

שימוש בשירות אירוח אתרים

אם משתמשים בשירות אירוח אתרים כמו Wix,‏ Drupal או Blogger, יכול להיות שלא יהיה צורך (או שלא תהיה אפשרות) לערוך את קובץ ה-robots.txt ישירות. במקום זאת, הספק שלכם יכול לחשוף דף הגדרות חיפוש או מנגנון אחר כדי להגדיר למנוע החיפוש אם יש או אין צורך לסרוק את הדף.

כדי לראות אם הדף נסרק על-ידי Google, יש לחפש את כתובת האתר של הדף ב-Google.

אם רוצים להסתיר את הדף (או לבטל את ההסתרה) ממנועי חיפוש, מוסיפים (או מסירים) את דרישות הכניסה של הדף, אם יש, ומחפשים הוראות לשינוי מידת החשיפה במנועי החיפוש בשירות האירוח, למשל: הסתרת דף של Wix ממנועי החיפוש

הבנת המגבלות של robots.txt

לפני שיוצרים או עורכים robots.txt, צריך להכיר את המגבלות של שיטה זו לחסימת כתובת אתר. לעתים, מומלץ לשקול להשתמש במנגנונים אחרים על מנת לוודא שכתובות האתרים שלכם אינן ניתנות לאיתור באינטרנט.

  • ההוראות ב-Robots.txt הן הנחיות בלבד
    לא ניתן לקבוע את התנהגות הסורקים באתר שלך בעזרת ההוראות בקובצי robots.txt; הוראות אלה הן הנחיות בלבד המיועדות לסורקים הניגשים לאתר. Googlebot וסורקי אינטרנט אחרים ממקורות אמינים פועלים בהתאם להוראות בקובץ robots.txt, לעומת סורקים אחרים שעלולים לא לציית להן. לכן, אם אתה מעוניין שסורקי אינטרנט לא ייגשו למידע, עדיף להשתמש בשיטות חסימה אחרות, כגון הגנה על קבצים פרטיים בשרת באמצעות סיסמה.
  • סורקים שונים מפרשים תחביר בדרך שונה
    אף שסורקי אינטרנט ממקורות אמינים פועלים לפי ההנחיות בקובץ robots.txt, כל סורק עשוי לפרש את ההנחיות בדרך שונה. עליכם לדעת את התחביר הנכון לפנייה לסורקי אינטרנט שונים, שכן סורקים מסוימים עשויים לא להבין הוראות מסוימות.
  • ניתן בכל זאת להוסיף לאינדקס דף חסום אם הקישור אליו מגיע מאתרים אחרים
    Google לא תסרוק תוכן או תיצור אינדקס של תוכן שנחסם על ידי robots.txt. למרות זאת, אנחנו עדיין עשויים למצוא כתובת אתר שאינה מורשה וליצור לה אינדקס אם הקישור אליה מגיע ממקומות אחרים באינטרנט. כתוצאה מכך, כתובת האתר, וייתכן שאף מידע אחר הזמין באופן ציבורי, כגון טקסט מקושר בקישורים לדף, עדיין יופיעו בתוצאות החיפוש של Google. כדי לוודא שכתובת ה-URL שלכם לא תופיע בתוצאות החיפוש של Google, צריך להגן על הקבצים בשרת באמצעות סיסמה או באמצעות כותרת תגובה או במטא תג מסוג nonindex (או להסיר את הדף לגמרי).
שימו לב: אם תשלבו מספר הנחיות של סריקה ויצירת אינדקס, עלול להיווצר מצב שבו הנחיות מסוימות מבטלות הנחיות אחרות. ניתן לקבל מידע כיצד להגדיר הנחיות אלה כראוי בסעיף שילוב סריקה עם הוספה לאינדקס / הצגה בתיעוד של Google Developers.

בדיקת דף לאיתור חסימות robots.txt

ניתן לבדוק אם דף או משאב חסום על-ידי כלל robots.txt.

כדי לבדוק אם קיימות הנחיות noindex, משתמשים בכלי לבדיקת כתובות אתרים.

האם המידע הועיל?
איך נוכל לשפר את המאמר?