Googlebot

Googlebot adalah bot perayapan web Google (terkadang juga disebut "spider"). Perayapan adalah proses Googlebot dalam menemukan laman baru dan termutakhir untuk dimasukkan ke dalam indeks Google.

Kami menggunakan banyak sekali komputer untuk mengambil (atau "merayapi") miliaran laman di web. Googlebot menggunakan proses algoritme: program komputer menentukan situs mana yang di-crawl, seberapa sering, dan berapa banyak halaman yang diambil dari tiap situs.

Cara Googlebot mengakses situs Anda

Bagi kebanyakan situs, Googlebot seharusnya tidak mengakses situs Anda lebih dari satu kali tiap beberapa detik secara rata-rata. Namun, karena penundaan jaringan, laju perayapan Googlebot bisa tampak sedikit lebih tinggi dalam periode waktu yang singkat.

Googlebot dirancang untuk didistribusikan di beberapa komputer guna meningkatkan kinerja dan skala seiring dengan bertumbuhnya web. Selain itu, untuk mengurangi penggunaan bandwidth, kami menjalankan banyak perayap di komputer yang terletak di dekat situs yang diindeksnya dalam jaringan. Oleh sebab itu, log Anda mungkin menampilkan kunjungan dari beberapa komputer di google.com, semua dengan agen-pengguna Googlebot. Tujuan kami adalah untuk merayapi sebanyak mungkin laman situs Anda pada setiap kunjungan tanpa membuat bandwidth server Anda kewalahan. Meminta perubahan laju perayapan.

Memblokir Googlebot dari konten di situs Anda

Hampir tidak mungkin untuk menjaga kerahasiaan server web dengan tidak memublikasikan tautan ke server. Saat seseorang mengikuti tautan dari server "rahasia" Anda ke server web lainnya, tak lama URL "rahasia" Anda dapat muncul di tag perujuk dan dapat disimpan serta dipublikasikan oleh server web lain dalam log perujuknya. Demikian juga jika web memiliki banyak tautan usang dan rusak. Kapan saja orang memublikasikan link yang salah ke situs Anda, atau gagal memperbarui link untuk mencerminkan perubahan di server Anda, Googlebot akan mencoba mendownload link yang salah dari situs tersebut.

Jika ingin mencegah Googlebot agar tidak meng-crawl konten di situs Anda, Anda memiliki sejumlah opsi. Perhatikan perbedaan antara membuat Googlebot agar tidak meng-crawl halaman, membuat Googlebot agar tidak mengindeks halaman, dan membuat halaman agar tidak dapat diakses sama sekali oleh crawler maupun pengguna.

Masalah dengan spammer dan agen pengguna lainnya

Alamat IP yang digunakan oleh Googlebot berubah seiring waktu. Googlebot mengidentifikasi dirinya dengan string agen pengguna, tetapi string ini dapat dipalsukan, sehingga cara terbaik untuk mengidentifikasi akses oleh Googlebot adalah menggunakan pencarian DNS terbalik.

Googlebot dan semua bot mesin telusur yang berkualitas akan mematuhi perintah dalam robots.txt, namun beberapa orang jahat dan spammer tidak akan mematuhinya. Melaporkan spam ke Google.

Google memiliki beberapa agen-pengguna lainnya, termasuk Feedfetcher (agen-pengguna Feedfetcher-Google). Karena permintaan Feedfetcher berasal dari tindakan eksplisit oleh pengguna manusia yang telah menambahkan umpan ke beranda Google mereka dan bukan dari perayap otomatis, Feedfetcher tidak mengikuti pedoman robots.txt. Anda dapat mencegah Feedfetcher agar tidak merayapi situs dengan mengonfigurasi server untuk menyajikan pesan status kesalahan 404, 410, atau yang lainnya ke agen-pengguna Feedfetcher-Google. Informasi selengkapnya tentang Feedfetcher.

Apakah artikel ini membantu?
Bagaimana cara meningkatkannya?