Crawler Google (agen pengguna)

Melihat robot yang digunakan Google untuk meng-crawl web

"Crawler" adalah istilah umum untuk program apa pun (seperti robot atau spider) yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman ke halaman lainnya. Crawler utama Google disebut Googlebot. Tabel ini mencantumkan informasi tentang crawler umum Google yang dapat Anda lihat di log perujuk, dan cara crawler tersebut harus ditentukan dalam robots.txt, tag meta robots, dan perintah HTTP X-Robots-Tag.

Tabel berikut menampilkan crawler yang digunakan oleh berbagai produk dan layanan di Google:

  • Token agen pengguna digunakan dalam baris User-agent: di robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Beberapa crawler memiliki lebih dari satu token, seperti yang ditunjukkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda.
  • String agen pengguna lengkap adalah deskripsi lengkap crawler, serta muncul di permintaan dan log web Anda.
Nilai ini dapat dipalsukan. Jika perlu memverifikasi bahwa pengunjung adalah Googlebot, Anda harus menggunakan pencarian DNS terbalik.
Crawler Token agen pengguna (token produk) String agen pengguna lengkap
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Memeriksa kualitas iklan pada halaman Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Memeriksa kualitas iklan pada halaman iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Memeriksa kualitas iklan pada halaman desktop)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Gambar
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot Berita
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (Desktop)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36

    atau (jarang digunakan):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (Smartphone)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

AdSense Seluler

Mediapartners-Google

(Berbagai jenis perangkat seluler) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robot AdsBot-Google.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Tidak mengikuti aturan robots.txt - berikut alasannya

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Tidak mengikuti aturan robots.txt - berikut alasannya

  • Agen saat ini:
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agen lama (tidak digunakan lagi):
    google-speakr

Agen pengguna dalam robots.txt

Saat beberapa agen pengguna dikenali dalam file robots.txt, Google akan mengikuti yang paling spesifik. Jika Anda ingin semua crawler Google dapat meng-crawl halaman, Anda tidak memerlukan file robots.txt sama sekali. Jika ingin memblokir atau memungkinkan semua crawler Google mengakses sejumlah konten, Anda dapat melakukannya dengan menentukan Googlebot sebagai agen-pengguna. Misalnya, jika Anda ingin semua halaman muncul di Google Penelusuran dan jika Anda ingin iklan AdSense muncul di halaman, Anda tidak memerlukan file robots.txt. Demikian pula, jika Anda ingin memblokir beberapa halaman dari Google sekaligus, memblokir agen pengguna Googlebot juga akan memblokir semua agen pengguna Google lainnya.

Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat memperoleh yang lebih spesifik. Misalnya, Anda ingin semua halaman muncul di Google Penelusuran, namun tidak ingin gambar dalam direktori pribadi Anda di-crawl. Dalam hal ini, gunakan robots.txt untuk melarang agen pengguna Googlebot-image untuk meng-crawl file di direktori/personal (sembari mengizinkan Googlebot meng-crawl semua file), seperti ini:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Contoh lainnya, anggaplah Anda ingin menayangkan iklan di semua halaman, namun tidak ingin halaman seperti itu muncul di Google Penelusuran. Di sini, Anda perlu memblokir Googlebot, namun mengizinkan Mediapartners-Google, seperti ini:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Agen pengguna dalam tag meta robot

Beberapa halaman menggunakan beberapa tag meta robot untuk menentukan perintah bagi crawler yang berbeda, seperti ini:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

Dalam hal ini, Google akan menggunakan jumlah perintah negatif, dan Googlebot akan mengikuti perintah noindex dan nofollow. Lihat informasi selengkapnya tentang cara yang digunakan Google untuk meng-crawl dan mengindeks situs Anda.

Apakah ini membantu?
Bagaimana cara meningkatkannya?