Gmail יומן Docs קבוצות YouTube תמונות חיפוש
היכנס

מידע נוסף

הכל על Google חיפוש

Googlebot

Googlebot הוא רובוט הסריקה באינטרנט של Google (הנקרא לפעמים גם "סורק"). סריקה היא התהליך שבו Googlebot מגלה דפים חדשים ועדכניים שיש להוסיף לאינדקס של Google.

אנו משתמשים במערך עצום של מחשבים כדי לאחזר (או "לסרוק") מיליארדים של דפי אינטרנט. Googlebot מפעיל תהליך אלגוריתמי: תוכניות מחשב קובעות אילו אתרים יש לסרוק, באיזו תדירות וכמה דפים לאחזר מכל אתר.

תהליך הסריקה של Googlebot מתחיל ברשימת כתובות אתרים של דפי אינטרנט, הנוצרת במסגרת תהליכי סריקה קודמים, תוך הוספת נתוני Sitemap‏ שסופקו על ידי מנהלי אתרים. כאשר Googlebot מבקר בכל אחד מאתרים אלה, הוא מאתר קישורים (SRC ו-HRECF) בכל דף ומוסיף אותם לרשימת הדפים לסריקה. במסגרת התהליך מצוינים אתרים חדשים, שינויים באתרים קיימים וקישורים מנותקים, ומשמשים לעדכון האינדקס של Google.

עבור מנהלי אתרים: Googlebot והאתר שלך

כיצד Googlebot מקבל גישה לאתרך

במרבית האתרים, Googlebot ייגש לאתרך לא יותר מאשר פעם בכמה שניות בממוצע. עם זאת, בגלל העיכובים ברשת, ייתכן שהקצב יהיה גבוה מעט יותר לפרקי זמן קצרים. באופן כללי, על Googlebot להוריד עותק אחד בלבד של כל דף בכל פעם. אם אתה מבחין ש-Googlebot מוריד דף פעמים רבות, ייתכן שהסיבה היא שהסורק הפסיק והתחיל מחדש.

Googlebot תוכנן להפצה במספר מחשבים כדי לשפר את הביצועים וקנה המידה ככל שהאינטרנט גדל. כמו כן, כדי לצמצם את השימוש בפס הרחב, אנו מפעילים סורקים רבים במחשבים הממוקמים ליד האתרים שהם מוסיפים לאינדקס ברשת. לכן, ייתכן שיומני הרישום שלך יציגו ביקורים ממספר מחשבים בכתובת google.com, כולם עם המשתמש-סוכן Googlebot. מטרתנו היא לסרוק בכל ביקור כמות גדולה ככל האפשר של דפים באתר שלך מבלי להעמיס מדי על רוחב הפס של השרת שלך. בקש שינוי בקצב הסריקה.

חסימת Googlebot מתוכן שבאתר שלך

כמעט בלתי אפשרי לשמור על שרת אינטרנט כסודי על ידי אי פרסום קישורים אליו. ברגע שמישהו עוקב אחר קישור מהשרת ה"סודי" לשרת אינטרנט אחר, כתובת האתר ה"סודית" עשויה להופיע בתג המפנה וניתן לאחסנה ולפרסמה על ידי שרת האינטרנט האחר ביומן הרישום המפנה שלו. בדומה לכך, לאינטרנט יש קישורים לא מעודכנים ושבורים רבים. בכל פעם שמישהו מפרסם קישור שגוי לאתרך או לא מצליח לעדכן קישורים כדי לשקף את השינויים בשרת שלך, Googlebot ינסה להוריד קישור שגוי מהאתר שלך.

אם ברצונך למנוע מ-Googlebot לסרוק תוכן באתרך, יש בפניך מספר אפשרויות, כולל שימוש בקובצי robots.txt‏ כדי לחסום גישה לקבצים ולספריות שבשרת שלך.

ברגע שיצרת את הקובץ robots.txt, ייתכן שיהיה עיכוב קל לפני ש-Googlebot יגלה את השינויים שלך. אם Googlebot עדיין סורק תוכן שחסמת באמצעות קובץ robots.txt, בדוק שהקובץ robots.txt נמצא במיקום הנכון. על הקובץ להופיע בספריה העליונה בשרת (למשל, www.myhost.com/robots.txt); למיקום הקובץ בספריית משנה לא תהיה השפעה כלל.

אם ברצונך למנוע רק את הודעות השגיאה "קובץ לא נמצא" ביומן שרת האינטרנט, תוכל ליצור קובץ ריק שייקרא robots.txt. אם ברצונך למנוע מ-Googlebot מלעקוב אחר קישורים בדף של האתר שלך, תוכל להשתמש במטא-תג nofollow‏. כדי למנוע מ-Googlebot מעקב אחר קישור נפרד, הוסף את התכונה rel="nofollow"‏ לקישור עצמו.

כאן תמצא מספר טיפים נוספים:

  • בדוק שקובץ ה-robots.txt שלך פועל כמצופה. הכלי בדיקת robots.txt‏ בכרטיסייה כתובות אתרים חסומות (robots.txt)‏ שבדף גישת סורק מאפשר לך לראות בדיוק כיצד יפרש Googlebot את תוכן קובץ ה-robots.txt שלך. המשתמש-סוכן של Google הוא (כמובן) Googlebot‏.
  • הכלי אחזור כ-Google‏ בכלי מנהלי האתרים עוזר לך להבין בדיוק כיצד האתר שלך נראה ל-Googlebot. דבר זה יכול להיות שימושי מאוד בעת פתרון בעיות בתוכן האתר או ביכולת הגילוי בתוצאות החיפוש.

אימות שניתן לסרוק את האתר שלך

‏Googlebot מגלה אתרים על ידי מעבר מדף לדף באמצעות קישורים. הדף שגיאות סריקה בכלי מנהלי אתרים מפרט בעיות ש-Googlebot מצא בעת סריקת האתר שלך. אנו ממליצים לבדוק שגיאות סריקה אלו באופן קבוע כדי לזהות בעיות כלשהן באתרך.

אם אתה משתמש ביישום AJAX עם תוכן שאתה מעוניין שיופיע בתוצאות חיפוש, מומלץ שתבדוק את ההצעה שלנו להפיכת תוכן המבוסס על AJAX לניתן לסריקה ולהוספה לאינדקס.

אם קובץ robots.txt עובד כצפוי, אך האתר שלך אינו מקבל תנועה, כאן תמצא מספר סיבות אפשריות מדוע ביצועי התוכן שלך אינם במיטבם בחיפוש.

בעיות עם שולחי דואר זבל ומשתמשים-סוכנים אחרים

כתובות ה-IP המשמשות את Googlebot משתנות מעת לעת. הדרך הטובה ביותר לזהות כניסות של Googlebot היא להשתמש במשתמש-סוכן‏ (Googlebot). תוכל לאמת שרובוט הניגש לשרת שלך הוא באמת Googlebot‏ על ידי שימוש בחיפוש DNS הפוך.

Googlebot וכל הרובוטים של מנועי החיפוש האמינים יכבדו את ההנחיות שבקובץ robots.txt‏, אולם תוכנות מזיקות אחרות ושולחי דואר זבל עלולים שלא לכבדן. דווח ל-Google על דואר זבל.

ל-Google יש מספר משתמשים-סוכנים אחרים, לרבות Feedfetcher (משתמש-סוכן Feedfetcher-Google). מאחר שבקשותיו של Feedfetcher נובעות מפעולה מפורשת של משתמשים אנושיים שהוסיפו עדכונים לדף הבית של Google‏ או אל Google Reader‏ ולא מתוך סורקים אוטומטיים, Feedfetcher אינו עוקב אחר הנחיות קובץ robots.txt. תוכל למנוע מ-Feedfetcher לסרוק את אתרך על ידי הגדרת השרת שלך לשימוש בהודעה של סטטוס שגיאה 404‏, 410 או כל סטטוס שגיאה אחר למשתמש-סוכן Feedfetcher-Google. מידע נוסף על Feedfetcher‏

עודכן 05/07/2012

ספר לנו מה מצבנו - ענה על חמש שאלות קצרות בנושא החוויה שלך במרכז התמיכה