הסורקים של Google‏ (סוכני משתמש)

באילו רובוטים Google משתמשת כדי לסרוק את האינטרנט

"סורק" (Crawler) הוא מונח כללי לכל תוכנית (כמו רובוט או סורק) המשמשת לגילוי ולסריקת אתרים באופן אוטומטי על ידי מעקב אחר קישורים מדף אינטרנט אחד לאחר. סורק האינטרנט העיקרי שמשמש את Google הוא Googlebot‏. טבלה זו מציגה מידע על הסורקים הנפוצים של Google שאתה עשוי לראות ביומני הגורמים המפנים, וכיצד לציין אותם ב-robots.txt, במטא טגים של רובוט ובהנחיות HTTP של הטג X-Robots.

הטבלה הבאה מציגה את הסורקים המשמשים מוצרים ושירותים שונים ב-Google:

  • נעשה שימוש באסימון סוכן המשתמש בשורה User-agent:‎ בקובץ robots.txt, כדי להתאים סוג סורק כללי כשכותבים כללי סריקה לאתר. לחלק מהסורקים יש יותר מאסימון אחד, כפי שמוצג בטבלה. יש להתאים אסימון סורק אחד בלבד כדי שכלל כלשהו יחול. הרשימה הזו לא שלמה, אבל היא כוללת את רוב הסורקים שאולי תראו באתר שלכם.
  • מחרוזת סוכן משתמש מלאה היא תיאור מלא של הסורק, והיא מופיעה בבקשה וביומני האינטרנט.
ניתן לזייף את הערכים האלה. אם אתם צריכים לוודא שהמבקר הוא Googlebot, עליכם להשתמש בחיפוש DNS הפוך.
סורק אסימון סוכן משתמש (אסימון מוצר) מחרוזת סוכן משתמש מלאה
APIs-Google

APIs-Google

‎APIs-Google (‎+‎https://developers.google.com/webmasters/APIs-Google.html‏‎)
AdSense

Mediapartners-Google

Mediapartners-Google

אינטרנט לנייד של AdsBot ל-Android

(בודק את איכות המודעות בדפי אינטרנט ב-Android)

AdsBot-Google-Mobile

Mozilla/5.0 ‏(Linux; Android 5.0; SM-G920A) ‏AppleWebKit ‏(KHTML, כמו Gecko)‏ Safari‏ של Chrome לניידים (תואם; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

אינטרנט לנייד של AdsBot

(בודק את איכות המודעות בדפי אינטרנט במכשירי iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 ‏(iPhone;‏ CPU iPhone OS 9_1 כגון Mac OS X) AppleWebKit/601.1.46 ‏(KHTML, כגון Gecko) גרסה/9.0 נייד/13B143 Safari/601.1 (תואם; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(בודק את איכות המודעות בדפי אינטרנט במחשבים שולחניים)

AdsBot-Google

(AdsBot-Google (+http://www.google.com/adsbot.html
תמונות Googlebot
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
חדשות Googlebot
  • Googlebot-News
  • Googlebot
Googlebot-News
סרטונים של Googlebot
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (למחשבים שולחניים)

Googlebot

  • Mozilla/5.0 (תואם; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36‏ (KHTML, כמו Gecko; תואם; Googlebot/2.1; +http://www.google.com/bot.html)‏ Safari/537.36

    או (בשימוש לעתים רחוקות):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (לסמארטפונים)

Googlebot

 

‏‏Mozilla/5.0‏ (Linux; Android 6.0.1; Nexus 5X Build/MMB29P‏)‏ ‏AppleWebKit/537.36 ‏(KHTML‏, כגון Gecko)‏ Chrome/41.0.2272.96‏ Safari לנייד/537.36‏ (תואם; ‏Googlebot/2.1;‏ +http://www.google.com/bot.html)

AdSense לניידים

Mediapartners-Google

(סוגים שונים של ניידים) (תואם; Mediapartners-Google/2.1;‏ ‎+http://www.google.com/bot.html)

אפליקציות לניידים של Android

(בודק את איכות המודעות של דפים באפליקציות Android. מציית לכללי הרובוטים של AdsBot-Google)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

לא פועל לפי כללי robots.txt - מהסיבות המפורטות כאן

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)‎

Google Read Aloud

Google-Read-Aloud

לא פועל לפי כללי robots.txt - מהסיבות המפורטות כאן

  • סוכן נוכחי:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • סוכן לשעבר (הוצא משימוש):
    google-speakr

סוכני משתמש בקובץ robots.txt

כאשר מספר סוכני משתמש מזוהים בקובץ robots.txt‏, Google תעקוב אחר סוכן המשתמש הספציפי ביותר. אם רוצים שכל הסורקים של Google יוכלו לסרוק את הדפים שלכם, אין לכם כל צורך בקובץ robots.txt. אם רוצים למנוע מכל הסורקים של Google את הגישה לחלק מתוכן שלכם, או להעניק להם גישה אליו, ניתן לעשות זאת על ידי ציון Googlebot כסוכן-המשתמש. לדוגמה, אם רוצים שכל הדפים שלכם יופיעו בחיפוש Google ושמודעות AdSense יופיעו בדפים, אינכם זקוקים לקובץ robots.txt. באופן דומה, אם רוצים למנוע לחלוטין את הגישה של Google לחלק מהדפים, חסימת סוכן-המשתמש Googlebot תחסום גם את כל סוכני-המשתמשים האחרים של Google.

אולם, אם תרצו שליטה מדוקדקת יותר, אפשר להיות ספציפיים יותר. לדוגמה, נניח שאתם מעוניינים שכל הדפים שלכם יופיעו בחיפוש Google, אבל אינכם מעוניינים שהתמונות בספרייה האישית שלכם ייסרקו. במקרה כזה, יש להשתמש בקובץ robots.txt כדי למנוע מסוכן-המשתמש Googlebot-image לסרוק את הקבצים שבספרייה ‎/personal (אך בו בזמן לאפשר ל-Googlebot לסרוק את כל הקבצים), באופן הבא:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
אם נתבונן בדוגמה אחרת, נניח שאתם רוצים שהמודעות יופיעו בכל הדפים, אך אינכם רוצים שדפים אלה יופיעו בחיפוש Google. במקרה כזה, יש לחסום את Googlebot, אך לאפשר את Mediapartners-Google, באופן הבא:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
 Disallow:

סוכני משתמש במטא תגים של רובוטים

חלק מהדפים משתמשים במספר תגי meta‏ של רובוטים כדי לציין הוראות עבור סורקים שונים, באופן הבא:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

במקרה כזה, Google תשתמש בסכום הכולל של ההוראות השליליות ו-Googlebot יעקוב אחר ההוראות noindex‏ ו-nofollow‏. למידע מפורט יותר על קביעת האופן שבו Google סורקת את האתר ומוסיפה אותו לאינדקס.

האם המידע הועיל?
איך נוכל לשפר את המאמר?