Tentang robots.txt

Membuat file robots.txt

Jika menggunakan layanan hosting situs, seperti Wix atau Blogger, Anda mungkin tidak perlu membuat atau mengedit file robots.txt.

Memulai

File robots.txt ada pada root situs Anda. Jadi, untuk situs www.example.com, file robots.txt berada di www.example.com/robots.txt. robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot. File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir (atau mengizinkan) akses crawler tertentu ke jalur file tertentu di situs tersebut.

Berikut adalah file robots.txt sederhana dengan dua aturan beserta penjelasannya:

# Rule 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Rule 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Penjelasan:

  1. Agen pengguna yang disebut crawler "Googlebot" tidak boleh meng-crawl folder http://example.com/nogooglebot/ atau subdirektori mana pun.
  2. Semua agen pengguna lainnya dapat mengakses situs secara keseluruhan. (Hal ini bisa dihilangkan dan hasilnya akan sama, karena akses penuh adalah asumsi.)
  3. File peta situs untuk situs berada di http://www.example.com/sitemap.xml

Kami akan memberikan contoh yang lebih mendetail nanti.

Panduan robots.txt dasar

Berikut adalah beberapa panduan dasar untuk file robots.txt. Sebaiknya baca sintaks lengkap file robots.txt karena sintaks robots.txt memiliki beberapa perilaku yang hampir tidak terlihat yang harus Anda pahami.

Format dan lokasi

Anda dapat menggunakan hampir semua editor teks untuk membuat file robots.txt. Editor teks seharusnya dapat membuat file teks UTF-8 atau ASCII standar; jangan gunakan pengolah kata, karena pengolah kata sering kali menyimpan file dalam format kepemilikan dan dapat menambahkan karakter yang tidak terduga, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler.

Gunakan fitur Penguji robots.txt untuk menulis atau mengedit file robots.txt untuk situs Anda. Fitur ini memungkinkan Anda menguji sintaks dan perilaku terhadap situs Anda.

Aturan format dan lokasi:

  • File harus diberi nama robots.txt
  • Situs hanya boleh memiliki satu file robots.txt.
  • FIle robots.txt harus berada di root host situs tempat file diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada http://www.example.com/, file robots.txt harus berada di http://www.example.com/robots.txt. File tidak boleh berada di subdirektori ( misalnya, di http://example.com/pages/robots.txt). Jika tidak tahu pasti cara mengakses root situs, atau perlu izin untuk melakukannya, hubungi penyedia layanan hosting web Anda. Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tag meta.
  • File robots.txt dapat diterapkan ke subdomain (misalnya, http://website.example.com/robots.txt) atau port yang tidak standar (misalnya, http://example.com:8181/robots.txt).
  • Komentar adalah baris apa pun yang dimulai dengan tanda # 

Sintaks

  • robots.txt harus berupa file teks ASCII atau UTF-8. Tidak ada karakter lain yang diizinkan.
  • File robots.txt terdiri dari satu aturan atau lebih.
  • Setiap aturan terdiri dari beberapa perintah (instruksi), satu perintah per baris.
  • Aturan memberikan informasi berikut:
    • Untuk siapa aturan berlaku (agen pengguna)
    • Direktori atau file mana yang dapat diakses oleh agen, dan/atau
    • Direktori atau file mana yang tidak dapat diakses oleh agen.
  • Aturan diproses dari atas ke bawah, dan satu agen pengguna hanya dapat cocok dengan satu kumpulan aturan, yaitu aturan pertama yang paling spesifik yang cocok dengan agen pengguna tertentu.
  • Asumsi default adalah agen pengguna dapat meng-crawl halaman atau direktori yang tidak diblokir oleh aturan Disallow:.
  • Aturan bersifat peka terhadap huruf besar dan kecil. Misalnya, Disallow: /file.asp berlaku untuk http://www.example.com/file.asp, namun tidak berlaku untuk http://www.example.com/FILE.asp.

Perintah berikut digunakan di file robots.txt:

  • User-agent: [Wajib, satu atau lebih untuk tiap aturan] Nama robot mesin telusur (software web crawler) tempat aturan diterapkan. Ini adalah baris pertama untuk aturan apa pun. Sebagian besar nama agen pengguna tercantum di Database Robot Web atau di Daftar agen pengguna Google. Mendukung karakter pengganti * untuk awalan, akhiran, atau string lokasi secara keseluruhan. Menggunakan tanda bintang (*) seperti pada contoh di bawah akan mencocokkan dengan semua crawler kecuali berbagai crawler AdsBot, yang harus disebutkan secara eksplisit. (Lihat daftar nama crawler Google.) Contoh:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Example 3: Block all but AdsBot crawlers
    User-agent: * 
    Disallow: /
  • Disallow: [Minimal satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang sesuai dengan domain root, yang tidak boleh di-crawl oleh agen pengguna. Untuk halaman, tuliskan nama halaman lengkap seperti yang ditampilkan di browser; untuk direktori, akhiri dengan tanda /.  Mendukung karakter pengganti * untuk awalan, akhiran, atau string lokasi secara keseluruhan.
  • Allow: [Minimal satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang sesuai dengan domain root, yang boleh di-crawl oleh agen pengguna yang disebutkan. Hal ini digunakan untuk mengganti Disallow guna mengizinkan crawling subdirektori atau halaman pada direktori yang dilarang. Untuk halaman, tuliskan nama halaman lengkap seperti yang ditampilkan di browser; untuk direktori, akhiri dengan tanda /. Mendukung karakter pengganti * untuk awalan, akhiran, atau string lokasi secara keseluruhan.
  • Sitemap: [Opsional, nol atau beberapa per file] Lokasi peta situs untuk situs ini. Harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang tepat untuk menunjukkan konten mana yang  boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari lebih lanjut peta situs. Contoh:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Kata kunci yang tidak dikenal akan diabaikan.

Contoh file lainnya

File robots.txt terdiri dari 1 pemblokiran aturan atau lebih, masing-masing aturan diawali dengan baris User-agent yang menentukan target dari aturan tersebut. Berikut adalah file dengan 2 aturan; komentar inline menjelaskan setiap aturan:

# Block googlebot from example.com/directory1/... and example.com/directory2/...
# but allow access to directory2/subdirectory1/...
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Block the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /

Sintaks robots.txt lengkap

Anda dapat menemukan sintaks robots.txt lengkap di sini. Harap baca seluruh dokumentasi tersebut karena ada beberapa hal rumit dan penting untuk dipelajari pada sintaks robots.txt.

Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan Contoh
Larang crawling keseluruhan situs. Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun belum di-crawl. Catatan: aturan ini tidak cocok dengan berbagai crawler AdsBot, yang harus disebutkan secara eksplisit.
User-agent: *
Disallow: /
Larang crawl direktori dan kontennya dengan garis miring ke depan setelah nama direktori. Perlu diingat bahwa Anda seharusnya tidak menggunakan robots.txt untuk memblokir akses ke konten pribadi: sebagai gantinya, gunakan autentikasi yang tepat. URL yang dilarang oleh file robots.txt masih dapat diindeks tanpa di-crawl, dan file robots.txt dapat dilihat oleh siapa saja yang berpotensi mengungkap lokasi konten pribadi Anda.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Izinkan akses ke sebuah crawler
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Izinkan akses ke semua kecuali sebuah crawler
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Larang crawl pada sebuah halaman dengan mencantumkan halaman setelah garis miring:

Disallow: /private_file.html

Blokir gambar tertentu dari Google Gambar:

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Blokir semua gambar di situs dari Google Gambar:

User-agent: Googlebot-Image
Disallow: /

Larang crawl file dari jenis file tertentu (misalnya, .gif):

User-agent: Googlebot
Disallow: /*.gif$

Larang crawl situs secara keseluruhan, namun tampilkan iklan AdSense di halaman tersebut, melarang semua crawler web selain Mediapartners-Google. Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, namun crawler web Mediapartners-Google tetap dapat menganalisisnya untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs Anda.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Cocokkan URL yang diakhiri dengan string khusus, menggunakan $. Misalnya, kode contoh untuk memblokir URL apa pun yang diakhiri dengan .xls:
User-agent: Googlebot
Disallow: /*.xls$
Apakah artikel ini membantu?
Bagaimana cara meningkatkannya?