סקירה כללית של הסורקים של Google (סוכני משתמש)

באילו רובוטים Google משתמשת כדי לסרוק את האינטרנט

"סורק" (Crawler) הוא מונח כללי לכל תוכנית (כמו רובוט או סורק) המשמשת לגילוי ולסריקת אתרים באופן אוטומטי על ידי מעקב אחר קישורים מדף אינטרנט אחד לאחר. סורק האינטרנט העיקרי שמשמש את Google הוא Googlebot‏. טבלה זו מציגה מידע על הסורקים הנפוצים של Google שאתם עשויים לראות ביומני הגורמים המפנים, ועל האופן שבו יש לציין אותם ב-robots.txt, במטא תגים של רובוטים ובהנחיות HTTP של התג X-Robots.

הטבלה הבאה מציגה את הסורקים המשמשים מוצרים ושירותים שונים ב-Google:

  • נעשה שימוש באסימון סוכן משתמש בשורה :User-agent בקובץ robots.txt, כדי להתאים סוג סורק כללי כשכותבים כללי סריקה לאתר. לחלק מהסורקים יש יותר מאסימון אחד, כפי שמוצג בטבלה. יש להתאים אסימון סורק אחד בלבד כדי שכלל כלשהו יחול. הרשימה הזו לא שלמה, אבל היא כוללת את רוב הסורקים שאולי תראו באתר שלכם.
  • מחרוזת סוכן משתמש מלאה היא תיאור מלא של הסורק, והיא מופיעה בבקשה וביומני האינטרנט.
ניתן לזייף את הערכים האלה. אם אתם צריכים לוודא שהמבקר הוא Googlebot, עליכם להשתמש בשאילתת DNS הפוכה.
סורק אסימון סוכן משתמש (אסימון מוצר) מחרוזת סוכן משתמש מלאה
APIs-Google

APIs-Google

‎APIs-Google (‎+‎https://developers.google.com/webmasters/APIs-Google.html‏‎)
AdSense

Mediapartners-Google

Mediapartners-Google

אינטרנט לנייד של AdsBot ל-Android

(בודק את איכות המודעות בדפי אינטרנט ב-Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

אינטרנט לנייד של AdsBot

(בודק את איכות המודעות בדפי אינטרנט במכשירי iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(בודק את איכות המודעות בדפי אינטרנט במחשבים שולחניים)

AdsBot-Google

(AdsBot-Google (+http://www.google.com/adsbot.html
תמונות Googlebot
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
חדשות Googlebot
  • Googlebot-News
  • Googlebot
Googlebot-News
סרטונים של Googlebot
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (למחשבים)

Googlebot

  • Mozilla/5.0 (תואם; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    או (בשימוש לעתים רחוקות):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (לסמארטפון)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

AdSense לניידים

Mediapartners-Google

(סוגים שונים של ניידים) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

אפליקציות לניידים של Android

(בודק את איכות המודעות של דפים באפליקציות Android. מציית לכללי הרובוטים של AdsBot-Google).

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

לא פועל לפי כללי הקובץ robots.txt - מהסיבות המפורטות כאן

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

לא פועל לפי כללי הקובץ robots.txt - מהסיבות המפורטות כאן

  • סוכן נוכחי:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • סוכן קודם (הוצא משימוש):
    google-speakr
Duplex באינטרנט

DuplexWeb-Google

עשוי להתעלם מהתו הכללי לחיפוש * של סוכן המשתמש - מהסיבות המפורטות כאן

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

סמל אתר Google

(מאחזר סמלי אתרים לשירותים שונים)

סמל אתר Google

לבקשות שיוזמים משתמשים, מתעלם מכללי robots.txt

 

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)  Chrome/49.0.2623.75 Safari/537.36 Google Favicon

 

Chrome/W.X.Y.Z בסוכני משתמש

בכל מקום שבו רואים את המחרוזת Chrome/W.X.Y.Z במחרוזת סוכן משתמש בטבלה, W.X.Y.Z היא למעשה placeholder המייצג את גרסת דפדפן Chrome המשמשת את סוכן המשתמש: לדוגמה, 41.0.2272.96. מספר גרסה זה יעלה עם הזמן כדי להתאים לגרסת Chromium המשמשת את Googlebot.

אם אתם מחפשים את היומנים שלכם או מסננים את השרת שלכם לסוכן משתמש עם דפוס זה, ככל הנראה עליכם להשתמש בתווים כלליים לחיפוש מספר הגרסה במקום לציין מספר גרסה מדויק.

סוכני משתמש בקובץ robots.txt

כאשר מספר סוכני משתמש מזוהים בקובץ robots.txt‏, Google תעקוב אחר סוכן המשתמש הספציפי ביותר. אם רוצים שכל הסורקים של Google יוכלו לסרוק את הדפים שלכם, אין לכם כל צורך בקובץ robots.txt. אם רוצים למנוע מכל הסורקים של Google את הגישה לחלק מתוכן שלכם, או להעניק להם גישה אליו, ניתן לעשות זאת על ידי ציון Googlebot כסוכן-המשתמש. לדוגמה, אם רוצים שכל הדפים שלכם יופיעו בחיפוש Google ושמודעות AdSense יופיעו בדפים, אינכם זקוקים לקובץ robots.txt. באופן דומה, אם רוצים למנוע לחלוטין את הגישה של Google לחלק מהדפים, חסימת סוכן-המשתמש Googlebot תחסום גם את כל סוכני-המשתמשים האחרים של Google.

אולם, אם תרצו שליטה מדוקדקת יותר, אפשר להיות ספציפיים יותר. לדוגמה, נניח שאתם מעוניינים שכל הדפים שלכם יופיעו בחיפוש Google, אבל אינכם מעוניינים שהתמונות בספרייה האישית שלכם ייסרקו. במקרה כזה, יש להשתמש בקובץ robots.txt כדי למנוע מסוכן-המשתמש Googlebot-image לסרוק את הקבצים שבספרייה ‎/personal (אך בו בזמן לאפשר ל-Googlebot לסרוק את כל הקבצים), באופן הבא:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
אם נתבונן בדוגמה אחרת, נניח שאתם רוצים שהמודעות יופיעו בכל הדפים, אך אינכם רוצים שדפים אלה יופיעו בחיפוש Google. במקרה כזה, יש לחסום את Googlebot, אך לאפשר את Mediapartners-Google, באופן הבא:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
 Disallow:

סוכני משתמש במטא תגים של רובוטים

חלק מהדפים משתמשים במספר תגי meta‏ של רובוטים כדי לציין הוראות עבור סורקים שונים, באופן הבא:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

במקרה כזה, Google תשתמש בסכום הכולל של ההוראות השליליות ו-Googlebot יעקוב אחר ההוראות noindex‏ ו-nofollow‏. מידע מפורט על קביעת האופן שבו Google סורקת את האתר שלכם ויוצרת לו אינדקס.

האם המידע הועיל?
איך נוכל לשפר את המאמר?