Memblokir URL dengan robots.txt

Mempelajari file robots.txt

Apa itu file robots.txt?

File robots.txt memberi tahu crawler mesin telusur halaman atau file yang dapat atau tidak dapat diminta oleh crawler dari situs Anda. File ini digunakan terutama untuk menghindari pemuatan berlebihan pada situs Anda karena permintaan; ini bukanlah mekanisme untuk menyembunyikan halaman dari Google. Untuk menyembunyikan halaman dari Google, Anda harus menggunakan tag atau perintah noindex, atau melindungi halaman dengan sandi.

Apa fungsi robots.txt?

robots.txt digunakan terutama untuk mengelola traffic crawler ke situs Anda, dan terkadang untuk menyembunyikan halaman dari Google, tergantung pada jenis file:

Jenis Halaman Pengelolaan traffic Sembunyikan dari Google Deskripsi
Halaman

Untuk halaman (HTML, PDF, atau format non-media lain yang dapat dibaca Google), robots.txt dapat digunakan untuk mengelola traffic crawler jika menurut Anda server akan kewalahan menangani permintaan dari crawler Google, atau untuk menghindari crawling pada halaman yang tidak penting atau serupa di situs Anda.

Sebaiknya jangan menggunakan robots.txt untuk menyembunyikan halaman dari hasil Google Penelusuran. Ini karena, jika halaman lain mengarah ke halaman Anda dengan teks deskriptif, halaman Anda masih dapat diindeks tanpa mengunjungi halaman. Jika Anda ingin memblokir halaman dari hasil penelusuran, gunakan metode lain seperti perlindungan dengan sandi atau perintah noindex.

Jika halaman Anda diblokir dengan file robots.txt, halaman masih dapat muncul dalam hasil penelusuran, tetapi hasil penelusuran tidak akan memiliki deskripsi dan tampak seperti ini. File gambar, file video, PDF, dan file non-HTML lainnya tidak akan disertakan. Jika melihat hasil penelusuran ini untuk halaman Anda dan ingin memperbaikinya, hapus entri robots.txt yang memblokir halaman. Jika ingin menyembunyikan halaman sepenuhnya dari penelusuran, gunakan metode lain.

File media

Gunakan robots.txt untuk mengelola traffic crawler, dan juga untuk mencegah file gambar, video, dan audio muncul dalam hasil penelusuran Google. (Perhatikan bahwa robots.txt tidak akan mencegah halaman lain atau pengguna menautkan ke file gambar/video/audio Anda.)

File resource

Anda dapat menggunakan robots.txt untuk memblokir file resource seperti file gaya, skrip, atau gambar yang tidak penting, jika Anda merasa bahwa halaman yang dimuat tanpa resource ini tidak akan terpengaruh secara signifikan dengan tidak tersedianya resource tersebut. Namun, jika ketiadaan resource ini membuat crawler Google lebih sulit memahami halaman, sebaiknya jangan memblokirnya. Jika tidak, Google tidak akan bekerja dengan baik saat menganalisis halaman yang bergantung pada resource tersebut.

Saya menggunakan layanan hosting situs

Jika Anda menggunakan layanan hosting situs, seperti WIX, Drupal, atau Blogger, Anda mungkin tidak perlu (atau dapat) mengedit file robots.txt secara langsung. Sebaliknya, penyedia Anda mungkin mengekspos pengaturan halaman atau mekanisme lain untuk memberi tahu mesin telusur untuk meng-crawl halaman atau tidak.

Untuk melihat apakah halaman Anda telah di-crawl oleh Google, telusuri URL halaman di Google.

Jika Anda ingin menyembunyikan (atau menampilkan) halaman, tambahkan (atau hapus) persyaratan login halaman dan telusuri Google untuk mendapatkan petunjuk tentang cara memodifikasi visibilitas halaman di mesin telusur pada host situs Anda, misalnya: wix menyembunyikan halaman dari mesin telusur

Memahami batasan robots.txt

Sebelum membuat atau mengedit robots.txt, Anda harus mengetahui batas metode pemblokiran URL ini. Terkadang, Anda dapat mempertimbangkan mekanisme lain guna memastikan URL tidak dapat ditemukan di web.

  • Petunjuk robots.txt hanya arahan
    Petunjuk di file robots.txt tidak dapat melaksanakan perilaku crawler ke situs Anda; sebagai gantinya, petunjuk ini bertindak sebagai perintah untuk crawler yang mengakses situs Anda. Meski Googlebot dan crawler web ternama lainnya mematuhi petunjuk dalam file robots.txt, crawler lainnya mungkin tidak. Oleh karena itu, jika Anda ingin menjaga informasi tetap aman dari crawler web, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server Anda.
  • Crawler yang berbeda menafsirkan sintaksis dengan cara yang berbeda
    Meskipun crawler web ternama mengikuti perintah dalam file robots.txt, tiap crawler mungkin menafsirkan perintah dengan cara yang berbeda. Anda perlu mengetahui sintaks yang sesuai untuk menangani web crawler yang berbeda karena beberapa di antaranya mungkin tidak memahami petunjuk tertentu.
  • Halaman yang menggunakan program robot tetap dapat diindeks jika ditautkan dari situs lain
    Meskipun Google tidak akan meng-crawl atau mengindeks konten yang diblokir oleh robots.txt, kami mungkin masih menemukan dan mengindeks URL yang tidak diizinkan jika ditautkan dari situs lain di web. Akibatnya, alamat URL dan, kemungkinan, informasi lain yang tersedia secara publik seperti teks link dalam link ke halaman masih dapat muncul di hasil penelusuran Google. Agar URL tidak muncul di hasil Google Penelusuran, Anda harus melindungi file di server dengan sandi atau menggunakan header respons atau tag meta noindex (atau menghapus halaman secara keseluruhan).
Catatan: Menggabungkan beberapa perintah crawling dan pengindeksan dapat menyebabkan beberapa perintah berjalan berlawanan dengan perintah lainnya. Pelajari cara mengonfigurasi perintah ini dengan benar di bagian Menggabungkan crawling dengan perintah pengindeksan/penyajian dalam dokumentasi Developer Google.

Menguji halaman untuk pemblokiran robots.txt

Anda dapat menguji apakah halaman atau resource diblokir oleh aturan robots.txt.

Untuk menguji perintah noindex, gunakan Fitur Inspeksi URL.

Apakah artikel ini membantu?
Bagaimana cara meningkatkannya?