חיפוש
נקה את החיפוש
סגירת החיפוש
Google Apps
תפריט ראשי

חסום כתובות אתרים באמצעות robots.txt

מידע נוסף על קובצי robots.txt

robots.txt הוא קובץ שנמצא בספריית השורש באתר שלך, שבו מפורטים החלקים באתר שאינך רוצה שייגשו אליהם סורקים של מנועי חיפוש. הקובץ משתמש בפרוטוקול אי הכללת רובוטים, פרוטוקול שכולל מקבץ קטן של פקודות המציינות גישה לאתר לפי קטע ולפי סוגים מסוימים של סורקי אינטרנט (כגון סורקים לנייד לעומת סורקים למחשבים שולחניים).

למה משמש קובץ robots.txt?

קבצים שאינם תמונות

לקבצים שאינם תמונות (כלומר, דפי אינטרנט), יש להשתמש בקובץ robots.txt רק כדי לשלוט בתנועת הסריקה. בדרך כלל, הסיבות לכך הן שאינך מעוניין שתדירות הסריקה של Google בשרת תהיה גבוהה מדי או שאינך רוצה לבזבז את תקציב הסריקה על סריקת דפים שאינם חשובים או על דפים דומים באתר. אין להשתמש בקובץ robots.txt כאמצעי להסתרת דפי האינטרנט שלך מתוצאות החיפוש של Google. הסיבה לכך היא שדפים אחרים עשויים להצביע על הדף שלך, וכך ניתן ליצור לו אינדקס תוך עקיפת קובץ robots.txt. אם ברצונך לחסום את הדף שלך מתוצאות החיפוש, עליך להשתמש בשיטה אחרת כגון הגנה באמצעות סיסמה או תגים או הנחיות מסוג noindex.

קובצי תמונות

robots.txt מונע הופעה של קובצי תמונות בתוצאות החיפוש של Google. (עם זאת הוא לא מונע מדפים אחרים או ממשתמשים אחרים לקשר לתמונה שלך.)

קובצי משאבים

ניתן להשתמש בקובץ robots.txt כדי לחסום קובצי משאבים כגון תמונה לא חשובה, סקריפט או קובצי סגנון, אם אתה חושב שטעינת הדפים ללא משאבים אלה לא תושפע מכך באופן משמעותי. עם זאת, אם היעדר משאבים אלה יקשה על הסורק של Google להבין את הדף, לא כדאי שתחסום אותם, אחרת Google לא תצליח לנתח בצורה טובה את הדפים שתלויים במשאבים אלה.

הבנת המגבלות של robots.txt

לפני שתבנה את הקובץ robots.txt, עליך להכיר את הסיכונים של שיטת החסימה הזו לכתובות אתרים. לעתים, מומלץ שתשקול להשתמש במנגנונים אחרים על מנת לוודא שכתובות האתרים שלך אינן ניתנות לאיתור באינטרנט.

  • ההוראות ב-Robots.txt הן הנחיות בלבד

    לא ניתן לקבוע את התנהגות הסורקים באתר שלך בעזרת ההוראות בקובצי robots.txt; הוראות אלה הן הנחיות בלבד המיועדות לסורקים הניגשים לאתר. Googlebot וסורקי אינטרנט אחרים ממקורות אמינים פועלים בהתאם להוראות בקובץ robots.txt, לעומת סורקים אחרים שעלולים לא לציית להן. לכן, אם אתה מעוניין שסורקי אינטרנט לא ייגשו למידע, עדיף להשתמש בשיטות חסימה אחרות, כגון הגנה על קבצים פרטיים בשרת באמצעות סיסמה.
  • סורקים שונים מפרשים תחביר בדרך שונה

    אף שסורקי אינטרנט ממקורות אמינים פועלים לפי ההנחיות בקובץ robots.txt, כל סורק עשוי לפרש את ההנחיות בדרך שונה. עליך לדעת את התחביר הנכון לפנייה לסורקי אינטרנט שונים, שכן סורקים מסוימים עשויים לא להבין הוראות מסוימות.
  • ההנחיות ב-robots.txt לא ימנעו מאתרים אחרים להציג קישורים לכתובות האתרים שלך

    Google לא תסרוק תוכן או תיצור אינדקס של תוכן שנחסם על ידי robots.txt. למרות זאת, אנו עשויים למצוא במקומות אחרים באינטרנט כתובת אתר שאינה מורשה וליצור לה אינדקס. כתוצאה מכך, כתובת האתר, וייתכן שאף מידע אחר הזמין באופן ציבורי, כגון טקסט מקושר בקישורים לאתר, עדיין יופיעו בתוצאות החיפוש של Google. אתה יכול לעצור לחלוטין את הופעת כתובת האתר שלך בתוצאות החיפוש של Google על ידי שימוש בשיטות אחרות של חסימת כתובת אתר, כגון הגנה על הקבצים בשרת באמצעות סיסמה או באמצעות שימוש בכותרת תגובה או במטא תג מסוג noindex.
שים לב: אם תשלב מספר הנחיות של סריקה ויצירת אינדקס, עלול להיווצר מצב שבו הנחיות מסוימות מבטלות הנחיות אחרות. למד כיצד להגדיר הנחיות אלה כראוי בקטע שילוב סריקה עם יצירת אינדקס / יצירת הנחיות בתיעוד של Google Developers.
האם המאמר היה מועיל?
איך נוכל לשפר את המאמר?