Crawler Google (agen pengguna)

Melihat robot yang digunakan Google untuk meng-crawl web

"Crawler" adalah istilah umum untuk program apa pun (seperti robot atau spider) yang digunakan untuk menemukan dan memindai situs secara otomatis dengan mengikuti link dari satu halaman ke halaman lainnya. Crawler utama Google disebut Googlebot. Tabel ini mencantumkan informasi tentang crawler umum Google yang dapat Anda lihat di log perujuk, dan cara crawler tersebut harus ditentukan dalam robots.txt, tag meta robots, dan perintah HTTP X-Robots-Tag.

Tabel berikut menampilkan crawler yang digunakan oleh berbagai produk dan layanan di Google:

  • Token agen pengguna digunakan dalam baris User-agent: di robots.txt agar cocok dengan jenis crawler saat menulis aturan crawl untuk situs Anda. Beberapa crawler memiliki lebih dari satu token, seperti yang ditunjukkan pada tabel; Anda hanya perlu mencocokkan satu token crawler untuk menerapkan aturan. Daftar ini tidak lengkap, tetapi mencakup sebagian besar crawler yang dapat ditemukan di situs Anda.
  • String agen pengguna lengkap adalah deskripsi lengkap crawler, serta muncul di permintaan dan log web Anda.
Nilai ini dapat dipalsukan. Jika perlu memverifikasi bahwa pengunjung adalah Googlebot, Anda harus menggunakan pencarian DNS terbalik.
Crawler Token agen pengguna (token produk) String agen pengguna lengkap
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(Memeriksa kualitas iklan pada halaman Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, seperti Gecko) Chrome Mobile Safari (kompatibel; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(Memeriksa kualitas iklan pada halaman iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, seperti Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (kompatibel; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

Memeriksa kualitas iklan pada halaman desktop)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Gambar
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot Berita
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (Desktop)

Googlebot

  • Mozilla/5.0 (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, seperti Gecko; kompatibel; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36

    atau (jarang digunakan):
     
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (Smartphone)

Googlebot

 

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, seperti Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)

AdSense Seluler

Mediapartners-Google

(Berbagai jenis perangkat seluler) (kompatibel; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Mobile Apps Android

(Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robot AdsBot-Google.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

Tidak mengikuti aturan robots.txt - berikut alasannya

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Tidak mengikuti aturan robots.txt - berikut alasannya

  • Agen saat ini:
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, seperti Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (kompatibel; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agen lama (tidak digunakan lagi):
    google-speakr

Agen pengguna dalam robots.txt

Saat beberapa agen pengguna dikenali dalam file robots.txt, Google akan mengikuti yang paling spesifik. Jika ingin semua perayap Google dapat merayapi laman, Anda tidak memerlukan file robots.txt sama sekali. Jika ingin memblokir atau memungkinkan semua perayap Google mengakses beberapa konten, Anda dapat melakukannya dengan menentukan Googlebot sebagai agen-pengguna. Misalnya, jika ingin semua laman muncul di Google Penelusuran dan iklan AdSense muncul di laman, Anda tidak memerlukan file robots.txt. Demikian pula, jika Anda ingin memblokir beberapa laman dari Google sekaligus, memblokir agen pengguna Googlebot juga akan memblokir semua agen pengguna Google lainnya.

Namun, jika Anda menginginkan kontrol yang lebih mendetail, Anda dapat memperoleh yang lebih spesifik. Misalnya, Anda ingin semua laman muncul di Google Penelusuran, namun tidak ingin gambar dalam direktori pribadi Anda dirayapi. Dalam hal ini, gunakan robots.txt untuk melarang agen pengguna Googlebot-image merayapi file di direktori /personal (sembari mengizinkan Googlebot merayapi semua file), seperti ini:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Contoh lainnya, anggaplah Anda ingin menayangkan iklan di semua laman, namun tidak ingin laman seperti itu muncul di Google Penelusuran. Di sini, Anda perlu memblokir Googlebot, namun mengizinkan Mediapartners-Google, seperti ini:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Agen pengguna dalam tag meta robot

Beberapa halaman menggunakan beberapa tag meta robot untuk menentukan perintah bagi crawler yang berbeda, seperti ini:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

Dalam hal ini, Google akan menggunakan jumlah perintah negatif, dan Googlebot akan mengikuti perintah noindex dan nofollow. Informasi lebih mendetail tentang mengontrol cara Google merayap dan mengindeks situs Anda.

Apakah artikel ini membantu?
Bagaimana cara meningkatkannya?