Tentang robots.txt

Pengantar robots.txt

Dasar-dasar file robots.txt: yang disebut dengan file robots.txt dan cara menggunakannya

Apa yang disebut dengan file robots.txt?

File robots.txt memberi tahu crawler mesin telusur halaman atau file yang dapat atau tidak dapat diminta oleh crawler dari situs Anda. File ini digunakan terutama untuk menghindarkan situs Anda dari beban permintaan yang terlampau banyak; file ini bukanlah mekanisme untuk menyembunyikan halaman dari Google. Untuk menyembunyikan halaman dari Google, Anda harus menggunakan perintah noindex atau melindungi halaman dengan sandi.

Apa fungsi robots.txt?

robots.txt digunakan terutama untuk mengelola traffic crawler ke situs Anda, dan biasanya untuk menyembunyikan halaman dari Google, bergantung pada jenis filenya:

Jenis Halaman Pengelolaan traffic Sembunyikan dari Google Deskripsi
Halaman

Untuk halaman (HTML, PDF, atau format non-media lain yang dapat dibaca Google), robots.txt dapat digunakan untuk mengelola traffic crawler jika menurut Anda server akan kewalahan menangani permintaan dari crawler Google, atau untuk menghindari crawling pada halaman yang tidak penting atau serupa di situs Anda.

Sebaiknya jangan menggunakan robots.txt untuk menyembunyikan halaman dari hasil Google Penelusuran. Ini karena, jika halaman lain mengarah ke halaman Anda dengan teks deskriptif, halaman Anda masih dapat diindeks tanpa mengunjungi halaman. Jika Anda ingin memblokir halaman dari hasil penelusuran, gunakan metode lain seperti perlindungan dengan sandi atau perintah noindex.

Jika halaman web Anda diblokir dengan file robots.txt, halaman tersebut masih dapat muncul dalam hasil penelusuran, tetapi hasil penelusuran tidak akan memiliki deskripsi dan tampak seperti ini. File gambar, file video, PDF, dan file non-HTML lainnya tidak akan disertakan. Jika melihat hasil penelusuran ini untuk halaman Anda dan ingin memperbaikinya, hapus entri robots.txt yang memblokir halaman. Jika ingin menyembunyikan halaman sepenuhnya dari penelusuran, gunakan metode lain.

File media

Gunakan robots.txt untuk mengelola traffic crawler, dan juga untuk mencegah file gambar, video, dan audio muncul dalam hasil penelusuran Google. (Perhatikan bahwa robots.txt tidak akan mencegah halaman lain atau pengguna menautkan ke file gambar/video/audio Anda.)

File resource

Anda dapat menggunakan robots.txt untuk memblokir file resource seperti file gaya, skrip, atau gambar yang tidak penting, jika Anda merasa bahwa halaman yang dimuat tanpa resource ini tidak akan terpengaruh secara signifikan dengan tidak tersedianya resource tersebut. Namun, jika ketiadaan resource ini membuat crawler Google lebih sulit memahami halaman, sebaiknya jangan memblokirnya. Jika tidak, Google tidak akan bekerja dengan baik saat menganalisis halaman yang bergantung pada resource tersebut.

Saya menggunakan layanan hosting situs

Jika Anda menggunakan layanan hosting situs, seperti Wix, Drupal, atau Blogger, Anda mungkin tidak perlu (atau dapat) mengedit file robots.txt secara langsung. Sebaliknya, penyedia Anda mungkin mengekspos halaman setelan penelusuran atau beberapa mekanisme lain untuk memberi tahu mesin telusur untuk meng-crawl halaman atau tidak.

Untuk melihat apakah halaman Anda telah di-crawl oleh Google, telusuri URL halaman di Google.

Jika Anda ingin menyembunyikan (atau menampilkan) halaman dari mesin telusur, tambahkan (atau hapus) persyaratan login halaman yang mungkin ada dan telusuri petunjuk tentang cara memodifikasi visibilitas halaman di mesin telusur pada layanan hosting Anda, misalnya: wix menyembunyikan halaman dari mesin telusur

Memahami batasan robots.txt

Sebelum membuat atau mengedit robots.txt, Anda harus mengetahui batas metode pemblokiran URL ini. Terkadang, Anda dapat mempertimbangkan mekanisme lain guna memastikan URL tidak dapat ditemukan di web.

  • Perintah robots.txt mungkin tidak didukung oleh semua mesin telusur
    Petunjuk dalam file robots.txt tidak dapat memaksakan perilaku crawler pada situs Anda; crawler dapat memilih untuk mematuhinya atau tidak. Meski Googlebot dan crawler web ternama lainnya mematuhi petunjuk dalam file robots.txt, crawler lainnya mungkin tidak. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari crawler web, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server Anda.
  • Crawler yang berbeda menafsirkan sintaksis dengan cara yang berbeda
    Meskipun crawler web ternama mengikuti perintah dalam file robots.txt, tiap crawler mungkin menafsirkan perintah dengan cara yang berbeda. Anda perlu mengetahui sintaks yang sesuai untuk menangani web crawler yang berbeda karena beberapa di antaranya mungkin tidak memahami petunjuk tertentu.
  • Halaman yang menggunakan program robot tetap dapat diindeks jika ditautkan dari situs lain
    Meskipun Google tidak akan meng-crawl atau mengindeks konten yang diblokir oleh robots.txt, kami mungkin masih menemukan dan mengindeks URL yang tidak diizinkan jika ditautkan dari situs lain di web. Akibatnya, alamat URL dan, kemungkinan, informasi lain yang tersedia secara publik seperti teks link dalam link ke halaman masih dapat muncul di hasil penelusuran Google. Agar URL tidak muncul dalam hasil Google Penelusuran, Anda harus melindungi file di server dengan sandi atau menggunakan header respons atau tag meta noindex (atau menghapus halaman secara keseluruhan).
Catatan: Menggabungkan beberapa perintah crawling dan pengindeksan dapat menyebabkan beberapa perintah berjalan berlawanan dengan perintah lainnya. Pelajari cara mengonfigurasi perintah ini dengan benar di bagian Menggabungkan crawling dengan perintah pengindeksan/penyajian dalam dokumentasi Developer Google.

Menguji halaman untuk pemblokiran robots.txt

Anda dapat menguji apakah halaman atau resource diblokir oleh aturan robots.txt.

Untuk menguji perintah noindex, gunakan Fitur Inspeksi URL.

Apakah ini membantu?
Bagaimana cara meningkatkannya?