מידע על robots.txt

שאלות נפוצות בנושא רובוטים

שאלות כלליות בנושא רובוטים

שאלות על קובץ robots.txt

שאלות בנושא המטא תג Robots

שאלות בנושא כותרת HTTP:‏ X-Robots-Tag

השאלה שלך לא מופיעה כאן? אפשר לפרסם בפורום העזרה למנהלי אתרים ולקבל עזרה בנושאים נוספים!

שאלות כלליות בנושא רובוטים

האם קובץ robots.txt נדרש באתר שלי?

לא. כאשר Googlebot נכנס לאתר, תחילה אנחנו מבקשים הרשאה לסרוק אותו על ידי ניסיון לאחזר את הקובץ robots.txt. באתר ללא קובץ robots.txt, ללא מטא תגים של Robots וללא כותרות HTTP מסוג X-Robots-Tag, הסריקה ויצירת האינדקס יתבצעו בדרך כלל באופן רגיל.

באיזו שיטה עליי להשתמש?

לשאלה הזו יש כמה תשובות אפשריות. בקצרה, יש סיבות טובות להשתמש בכל אחת מהשיטות האלה:

  1. Robots.txt: יש להשתמש בקובץ זה אם סריקת התוכן גורמת לבעיות בשרת שלך. לדוגמה, ייתכן שתרצה למנוע סריקה של סקריפטים שמוסיפים תוכן כדי לאפשר גלילה אינסופית. אין להשתמש ב-robots.txt כדי לחסום תוכן פרטי (יש להשתמש במקום זאת באימות בצד השרת) או כדי לטפל בקנוניזציה (אפשר לעיין במרכז העזרה שלנו). אם עליך להיות בטוח שלכתובת אתר מסוימת לא ייווצר אינדקס, יש להשתמש במטא תג Robots או בכותרת HTTP מסוג X-Robots-Tag.
  2. מטא תג Robots: יש להשתמש בו אם עליך לשלוט באופן שבו דף HTML יחיד יוצג בתוצאות החיפוש (או כדי לוודא שהוא לא יוצג).
  3. כותרת HTTP מסוג X-Robots-Tag: יש להשתמש בה אם עליך לשלוט באופן שבו תוכן שאינו HTML יוצג בתוצאות החיפוש (או כדי לוודא שלא יוצג).

האם ניתן להשתמש בשיטות אלה כדי להסיר אתר של מישהו אחר?

לא. שיטות אלה תקפות רק לאתרים שבהם ניתן לשנות את הקוד או להוסיף קבצים. אם ברצונך להסיר תוכן מאתר של צד שלישי, עליך ליצור קשר עם מנהל האתר כדי שיסיר את התוכן.

כיצד אוכל להאט את הקצב שבו Google סורקת את האתר שלי?

בדרך כלל, ניתן לשנות את ההגדרה של קצב הסריקה בחשבון Google Search Console.

שאלות על קובץ robots.txt

אותו קובץ robots.txt משמש אותי לכמה אתרים. האם ניתן להשתמש בכתובת אתר מלאה במקום בנתיב יחסי?

לא. ההוראות בקובץ robots.txt (למעט ":sitemap") תקפות רק לנתיבים יחסיים.

האם ניתן לשמור את הקובץ robots.txt בספריית משנה?

לא. הקובץ חייב להיות בספרייה העליונה של האתר.

אני רוצה לחסום תיקייה פרטית. האם ניתן למנוע מאנשים אחרים לקרוא את קובץ robots.txt שלי?

לא. משתמשים שונים יכולים לקרוא את הקובץ robots.txt. אם תיקיות או שמות קבצים של תוכן אינם צריכים להיות גלויים לציבור, אין לציין אותם בקובץ robots.txt. לא מומלץ להציג קובצי robots.txt שונים בהתבסס על סוכן המשתמש או על מאפיינים אחרים.

האם עליי לכלול הוראת allow כדי לאפשר סריקה?

לא, אין צורך לכלול הוראת allow. ההוראה allow משמשת לביטול הוראות disallow באותו קובץ robots.txt.

מה קורה אם יש לי טעות בקובץ robots.txt או אם השתמשי בהוראה שאינה נתמכת?

לרוב, סורקי אינטרנט הם כלים גמישים מאוד ואינם מושפעים מטעויות קטנות בקובץ robots.txt. באופן כללי, במקרה הגרוע ביותר, הסורק יתעלם מהוראות שגויות / לא נתמכות. עם זאת, יש לזכור ש-Google לא "קוראת בין השורות" כאשר היא מפרשת קובץ robots.txt. אנחנו צריכים לפרש את קובץ robots.txt שאוחזר. אולם, אם אתה מודע לבעיות בקובץ robots.txt, בדרך כלל ניתן לתקן אותן בקלות.

באיזו תוכנית עליי להשתמש כדי ליצור קובץ robots.txt?

ניתן להשתמש בכל תוכנית שיוצרת קובץ טקסט חוקי. תוכניות נפוצות המשמשות ליצירת קובצי robots.txt הן Notepad,‏ TextEdit,‏ vi או emacs. לרשותכם מידע נוסף על יצירת קובצי robots.txt. לאחר יצירת הקובץ, מאמתים אותו באמצעות בודק robots.txt.

אם משתמשים בהוראת disallow בקובץ robots.txt כדי למנוע מ-Google לסרוק דף מסוים, האם הדף ייעלם מתוצאות החיפוש?

כשמונעים מ-Google לסרוק דף, סביר להניח שהדף יוסר מהאינדקס של Google. 

עם זאת, שימוש בהוראת disallow בקובץ robots.txt אינו מבטיח שדף מסוים לא יופיע בתוצאות. Google יכולה להחליט שהדף רלוונטי על סמך מידע חיצוני כמו קישורים שמגיעים לדף. אם ברצונך לחסום את הוספתו של דף לאינדקס באופן מפורש, עליך להשתמש במטא תג Robots מסוג noindex או בכותרת HTTP מסוג X-Robots-Tag. במקרה זה, אין לחסום את סריקת הדף בקובץ robots.txt באמצעות הוראת disallow, מכיוון שצריך לסרוק את הדף כדי לראות את התג ולפעול בהתאם להוראות שלו.

תוך כמה זמן ישפיעו השינויים בקובץ robots.txt על תוצאות החיפוש?

תחילה, יש לרענן את המטמון של הקובץ robots.txt (בדרך כלל, אנחנו שומרים את התוכן במטמון עד יום אחד). גם לאחר איתור השינוי, הסריקה ויצירת אינדקס הן תהליכים מורכבים שעשויים להימשך זמן מה לכתובות אתרים מסוימות. לכן, לא ניתן לספק קו זמן מדויק. כמו כן, יש לזכור שגם אם הקובץ robots.txt אינו מאפשר גישה לכתובת אתר, ייתכן שכתובת זו תופיע בתוצאות החיפוש, על אף שאנחנו לא יכולים לסרוק אותה. אם רוצים לזרז את הסרת הדפים החסומים מ-Google, יש לשלוח בקשה להסרה באמצעות Google Search Console.

איך אפשר להשעות באופן זמני את כל פעולות הסריקה באתר?

ניתן להשעות באופן זמני את כל פעולות הסריקה על ידי החזרה של קוד תוצאה 503 ב-HTTP לכל כתובות האתרים, כולל קובץ robots.txt. המערכת תנסה לסרוק מעת לעת את הקובץ robots.txt עד שניתן יהיה לגשת אליו שוב. אנחנו לא ממליצים לשנות את קובץ robots.txt שלך כדי למנוע סריקה.

השמות באתר שלי אינם תלויי רישיות. האם ניתן למנוע סריקה בתיקיות מסוימות?

ההוראות בקובץ robots.txt תלויות-רישיות. במקרה זה, מומלץ לוודא שרק לגרסה אחת של כתובת האתר נוצר אינדקס באמצעות שיטות קנוניזציה. פעולה זו מאפשרת לך לפשט את הבנייה של קובץ robots.txt. אם הפעולה אינה אפשרית, מומלץ לציין את השילובים הנפוצים של שם התיקייה או לקצר אותו ככל האפשר ולהשתמש רק בתווים הראשונים במקום בשם המלא. לדוגמה, במקום לציין את כל האפשרויות של האותיות הקטנות והגדולות בשם "MyPrivateFolder/", ניתן לציין את האפשרויות בשם "MyP/" (אם אין לך ספק שאין כתובות אתרים אחרות שמתחילות באותיות אלה, שניתן לסרוק אותן). לחלופין, אם אין בעיה בסריקה, ייתכן שעדיף להשתמש במטא תג Robots או בכותרת HTTP מסוג X-Robots-Tag.

האתר שלי מחזיר קוד שגיאה 403, "הגישה אסורה" לכל כתובות האתרים, כולל קובץ robots.txt. למה האתר נסרק בכל זאת?

קוד 403 ב-HTTP, וכן כל שאר הקודים בפורמט 4xx ב-HTTP, מציינים שקובץ robots.txt אינו קיים. מסיבה זו, סורקים מניחים בדרך כלל שהם יכולים לסרוק את כל כתובות האתרים של האתר. כדי לחסום את סריקת האתר, יש להחזיר קובץ robots.txt באופן רגיל (עם קוד התוצאה 200, "OK", ב-HTTP), שכולל הוראת disallow מתאימה.

שאלות בנושא המטא תג Robots

האם המטא תג Robots הוא תחליף לקובץ robots.txt?

לא. קובץ robots.txt קובע לאילו דפים ניגש הסורק. המטא תג Robots קובע אם לדף נוצר אינדקס, אבל יש לסרוק את הדף כדי לראות את התג הזה. אם סריקת דף יוצרת בעיות (לדוגמה, אם הדף גורם לעומס גבוה בשרת), עליך להשתמש בקובץ robots.txt. אם ברצונך לקבוע אם הדף מוצג או לא מוצג בתוצאות חיפוש, כדאי להשתמש במטא תג Robots.

האם ניתן להשתמש במטא תג Robots כדי לחסום יצירת אינדקס של חלק מהדף?

לא, המטא תג Robots מוגדר ברמת הדף.

האם אפשר להשתמש במטא תג Robots מחוץ לקטע <head>?

לא, בשלב זה, המטא תג Robots צריך להיות בקטע <head> בדף.

האם המטא תג Robots מונע סריקה?

לא. גם אם המטא תג Robots כולל את ההוראה noindex, יהיה עלינו לסרוק מחדש את כתובת האתר מדי פעם כדי לבדוק אם המטא תג השתנה.

מה ההבדל בין המטא תג Robots מסוג nofollow לבין מאפיין הקישור rel="nofollow"‎?

המטא תג Robots מסוג nofollow חל על כל הקישורים בדף. מאפיין הקישור rel="nofollow"‎ חל רק על קישורים מסוימים בדף. תוכלו למצוא מידע נוסף על מאפיין הקישור rel="nofollow"‎ במאמרים של מרכז העזרה בנושא ספאם שנוצר על ידי משתמשים ובנושא rel="nofollow"‎.

שאלות בנושא כותרת HTTP:‏ X-Robots-Tag

כיצד ניתן לחפש כתובת אתר בתוך X-Robots-Tag?

ניתן להציג בקלות את כותרות השרת באמצעות בודק כותרות שרת הפועל באינטרנט או באמצעות התכונה אחזור כ-Googlebot ב-Google Search Console.

האם המידע הועיל?
איך נוכל לשפר את המאמר?