Crawler Google

Melihat robot yang digunakan Google untuk meng-crawl web

"Perayap" adalah istilah generik bagi program apa pun (seperti robot atau spider) yang digunakan untuk menemukan dan memindai situs web secara otomatis dengan mengikuti tautan dari satu laman web ke laman web lainnya. Perayap utama Google disebut Googlebot. Tabel ini mencantumkan informasi tentang crawler umum Google yang dapat Anda lihat di log perujuk, dan cara crawler tersebut seharusnya ditentukan dalam robots.txt, tag meta robots, dan perintah HTTP X-Robots-Tag.

Pada tabel berikut, token agen pengguna digunakan di baris User-agent: di robots.txt agar cocok dengan crawler khusus tersebut. Beberapa crawler merespons lebih dari 1 token, seperti yang ditunjukkan pada tabel; Anda hanya perlu menggunakan 1 token yang cocok untuk crawler.

Crawler Token agen pengguna (digunakan dalam robots.txt) String agen pengguna penuh (seperti yang terlihat dalam file log situs)
APIs-Google
  • APIs-Google
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense
  • Mediapartners-Google
Mediapartners-Google

AdsBot Mobile Web Android

(Memeriksa kualitas iklan pada halaman Android)

  • AdsBot-Google-Mobile
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, seperti Gecko) Chrome Mobile Safari (kompatibel; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Memeriksa kualitas iklan pada halaman iPhone)

  • AdsBot-Google-Mobile
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, seperti Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (kompatibel; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Memeriksa kualitas iklan pada halaman desktop)

  • AdsBot-Google
AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Gambar
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot Berita
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot

(Desktop)

  • Googlebot

Mozilla/5.0 (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)

atau (jarang digunakan):

Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot

(Smartphone)

  • Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, seperti Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)

AdSense Seluler
  • Mediapartners-Google
(Berbagai jenis perangkat seluler) (kompatibel; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robot AdsBot-Google.)

  • AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Apps

Agen pengguna dalam robots.txt

Saat beberapa agen pengguna dikenali dalam file robots.txt, Google akan mengikuti yang paling spesifik. Jika ingin semua perayap Google dapat merayapi laman, Anda tidak memerlukan file robots.txt sama sekali. Jika ingin memblokir atau memungkinkan semua perayap Google mengakses beberapa konten, Anda dapat melakukannya dengan menentukan Googlebot sebagai agen-pengguna. Misalnya, jika ingin semua laman muncul di Google Penelusuran dan iklan AdSense muncul di laman, Anda tidak memerlukan file robots.txt. Demikian pula, jika Anda ingin memblokir beberapa laman dari Google sekaligus, memblokir agen pengguna Googlebot juga akan memblokir semua agen pengguna Google lainnya.

Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat memperoleh yang lebih spesifik. Misalnya, Anda ingin semua laman muncul di Google Penelusuran, namun tidak ingin gambar dalam direktori pribadi Anda dirayapi. Dalam hal ini, gunakan robots.txt untuk melarang agen pengguna Googlebot-image merayapi file di direktori /personal (sembari mengizinkan Googlebot merayapi semua file), seperti ini:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Contoh lainnya, anggaplah Anda ingin menayangkan iklan di semua laman, namun tidak ingin laman seperti itu muncul di Google Penelusuran. Di sini, Anda perlu memblokir Googlebot, namun mengizinkan Mediapartners-Google, seperti ini:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Agen pengguna dalam tag meta robot

Beberapa halaman menggunakan beberapa tag meta robot untuk menentukan perintah bagi crawler yang berbeda, seperti ini:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

Dalam hal ini, Google akan menggunakan jumlah perintah negatif, dan Googlebot akan mengikuti perintah noindex dan nofollow. Informasi lebih mendetail tentang mengontrol cara Google merayap dan mengindeks situs Anda.

Apakah artikel ini membantu?
Bagaimana cara meningkatkannya?