Tentang robots.txt

Membuat file robots.txt

Jika menggunakan layanan hosting situs, seperti Wix atau Blogger, Anda mungkin tidak perlu membuat atau mengedit file robots.txt.

Memulai

File robots.txt ada pada root situs Anda. Jadi, untuk situs www.example.com, file robots.txt berada di www.example.com/robots.txt. robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot. File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir (atau mengizinkan) akses crawler tertentu ke jalur file tertentu di situs tersebut.

Berikut adalah sebuah file robots.txt sederhana yang memuat dua aturan beserta penjelasannya:

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Penjelasan:

  1. Agen pengguna yang disebut crawler "Googlebot" tidak boleh meng-crawl folder http://example.com/nogooglebot/ atau subdirektori mana pun.
  2. Semua agen pengguna lainnya dapat mengakses situs secara keseluruhan. (Hal ini bisa dihilangkan dan hasilnya akan sama, karena akses penuh adalah asumsi.)
  3. File peta situs untuk situs berada di http://www.example.com/sitemap.xml

Kami akan memberikan contoh yang lebih mendetail nanti.

Panduan robots.txt dasar

Berikut adalah beberapa panduan dasar untuk file robots.txt. Sebaiknya baca sintaks lengkap file robots.txt karena sintaks robots.txt memiliki beberapa perilaku yang hampir tidak terlihat yang harus Anda pahami.

Format dan lokasi

Anda dapat menggunakan hampir semua editor teks untuk membuat file robots.txt. Editor teks dapat membuat file teks UTF-8 standar. Jangan gunakan pengolah kata karena aplikasi tersebut sering kali menyimpan file dalam format eksklusif dan dapat menambahkan karakter yang tidak terduga, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler.

Gunakan fitur Penguji robots.txt untuk menulis atau mengedit file robots.txt untuk situs Anda. Fitur ini memungkinkan Anda menguji sintaks dan perilaku terhadap situs Anda.

Aturan format dan lokasi:

  • File harus diberi nama robots.txt
  • Situs hanya boleh memiliki satu file robots.txt.
  • File robots.txt harus berada di root host situs tempat file tersebut akan diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada http://www.example.com/, file robots.txt harus berada di http://www.example.com/robots.txt. File tidak boleh berada di subdirektori (misalnya, di http://example.com/pages/robots.txt). Jika Anda tidak tahu pasti cara mengakses root situs, atau memerlukan izin untuk mengaksesnya, hubungi penyedia layanan hosting web Anda. Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tag meta.
  • File robots.txt dapat diterapkan ke subdomain (misalnya, http://website.example.com/robots.txt) atau port yang tidak standar (misalnya, http://example.com:8181/robots.txt).
  • Komentar adalah konten apa pun setelah tanda #.

Sintaks

  • robots.txt harus berupa file teks berenkode UTF-8 (yang mencakup ASCII). Himpunan karakter lain tidak boleh digunakan.
  • File robots.txt terdiri dari satu atau beberapa grup.
  • Setiap grup terdiri dari beberapa aturan atau perintah (petunjuk), satu perintah per baris.
  • Grup memberikan informasi berikut:
    • Untuk siapa grup berlaku (agen pengguna)
    • Direktori atau file mana yang dapat diakses oleh agen, dan/atau
    • Direktori atau file mana yang tidak dapat diakses oleh agen.
  • Grup diproses dari atas ke bawah, dan sebuah agen pengguna hanya boleh cocok dengan satu kumpulan aturan, yaitu aturan pertama dan paling spesifik yang cocok dengan agen pengguna tertentu.
  • Asumsi defaultnya adalah agen pengguna dapat meng-crawl semua halaman atau direktori yang tidak diblokir oleh aturan Disallow:.
  • Aturan bersifat peka terhadap huruf besar dan kecil. Misalnya, Disallow: /file.asp berlaku untuk http://www.example.com/file.asp, namun tidak berlaku untuk http://www.example.com/FILE.asp.

Perintah berikut digunakan dalam file robots.txt:

  • User-agent: [Wajib, satu atau lebih untuk setiap grup] Nama robot mesin telusur (software web crawler) tempat aturan diterapkan. Ini adalah baris pertama untuk aturan apa pun. Sebagian besar nama agen pengguna Google tercantum di Database Robot Web atau di Daftar agen pengguna Google. Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur. Penggunaan tanda bintang (*) seperti dalam contoh di bawah akan mencocokkan dengan semua crawler kecuali beberapa crawler AdsBot, yang harus dinamai secara eksplisit. (Lihat daftar nama crawler Google.) Contoh:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Example 3: Block all but AdsBot crawlers
    User-agent: * 
    Disallow: /
  • Disallow: [Minimal satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak boleh di-crawl oleh agen pengguna. Untuk halaman, tuliskan nama halaman lengkap seperti yang ditampilkan di browser; untuk direktori, akhiri dengan tanda /.  Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur.
  • Allow: [Minimal satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang boleh di-crawl oleh agen pengguna yang disebutkan. Aturan ini digunakan untuk mengganti Disallow guna mengizinkan crawling subdirektori atau halaman pada direktori yang dilarang. Untuk halaman, tuliskan nama halaman lengkap seperti yang ditampilkan di browser; untuk direktori, akhiri dengan tanda /. Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur.
  • Sitemap: [Opsional, nol atau beberapa per file] Lokasi peta situs untuk situs ini. Harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang tepat untuk menunjukkan konten mana yang  boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari lebih lanjut peta situs. Contoh:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Aturan lain akan diabaikan.

Contoh file lainnya

File robots.txt terdiri dari satu atau beberapa grup, yang masing-masing diawali dengan baris User-agent yang menentukan target dari grup tersebut. Berikut adalah sebuah file dengan dua grup; komentar inline menjelaskan setiap grup:

# Block googlebot from example.com/directory1/... and example.com/directory2/...
# but allow access to directory2/subdirectory1/...
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Block the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /

Sintaks robots.txt lengkap

Anda dapat menemukan sintaks robots.txt lengkap di sini. Harap baca seluruh dokumentasi tersebut karena ada beberapa hal rumit dan penting untuk dipelajari pada sintaks robots.txt.

Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan Contoh
Larang crawling keseluruhan situs. Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun belum di-crawl. Catatan: aturan ini tidak cocok dengan berbagai crawler AdsBot, yang harus disebutkan secara eksplisit.
User-agent: *
Disallow: /
Larang crawl direktori dan kontennya dengan garis miring ke depan setelah nama direktori. Perlu diingat bahwa Anda seharusnya tidak menggunakan robots.txt untuk memblokir akses ke konten pribadi: sebagai gantinya, gunakan autentikasi yang tepat. URL yang dilarang oleh file robots.txt masih dapat diindeks tanpa di-crawl, dan file robots.txt dapat dilihat oleh siapa saja yang berpotensi mengungkap lokasi konten pribadi Anda.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Izinkan akses ke sebuah crawler
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Izinkan akses ke semua kecuali sebuah crawler
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Larang crawling sebuah halaman web dengan mencantumkan halaman tersebut setelah garis miring:

User-agent: *
Disallow: /private_file.html

Blokir gambar tertentu dari Google Gambar:

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Blokir semua gambar di situs dari Google Gambar:

User-agent: Googlebot-Image
Disallow: /

Larang crawling file jenis tertentu (misalnya .gif):

User-agent: Googlebot
Disallow: /*.gif$

Larang crawl situs secara keseluruhan, namun tampilkan iklan AdSense di halaman tersebut, melarang semua crawler web selain Mediapartners-Google. Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, namun crawler web Mediapartners-Google tetap dapat menganalisisnya untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs Anda.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Cocokkan URL yang diakhiri dengan string tertentu, menggunakan $. Misalnya, kode contoh untuk memblokir URL apa pun yang diakhiri dengan .xls:
User-agent: Googlebot
Disallow: /*.xls$
Apakah ini membantu?
Bagaimana cara meningkatkannya?