Tentang robots.txt

FAQ Robots

Pertanyaan umum tentang robots

Pertanyaan terkait robots.txt

Pertanyaan terkait tag meta robots

Pertanyaan header HTTP X-Robots-Tag

Apakah kami melewatkan FAQ? Jangan ragu untuk mengajukan pertanyaan di Forum Bantuan Webmaster kami untuk mendapatkan bantuan lainnya.

Pertanyaan umum tentang robots

Apakah situs saya memerlukan file robots.txt?

Tidak. Saat Googlebot mengunjungi situs, pertama-tama kami akan meminta izin untuk meng-crawl dengan mencoba mengambil file robots.txt. Situs tanpa file robots.txt, tag meta robots, atau header HTTP X-Robots-Tag umumnya akan di-crawl dan diindeks secara normal.

Metode apa yang harus saya gunakan?

Tergantung. Singkatnya, Anda dapat menggunakan salah satu metode berikut:

  1. robots.txt: Gunakan metode ini jika crawling konten menyebabkan masalah pada server Anda. Misalnya, Anda mungkin ingin melarang crawling skrip kalender yang tidak terbatas. Anda sebaiknya tidak menggunakan robots.txt untuk memblokir konten pribadi (sebagai gantinya, gunakan autentikasi sisi server), atau untuk menangani kanonikalisasi (kunjungi Pusat Bantuan kami). Jika Anda harus memastikan bahwa URL tidak diindeks, gunakan tag meta robots atau header HTTP X-Robots-Tag sebagai gantinya.
  2. Tag meta robots: Gunakan metode ini jika Anda perlu mengontrol cara menampilkan halaman HTML individu di hasil penelusuran (atau untuk memastikan bahwa halaman tersebut tidak ditampilkan).
  3. Header HTTP X-Robots-Tag: Gunakan metode ini jika Anda perlu mengontrol cara menampilkan konten non-HTML di hasil penelusuran (atau untuk memastikan bahwa konten tersebut tidak ditampilkan).

Dapatkah saya menggunakan metode ini untuk menghapus situs orang lain?

Tidak. Metode tersebut hanya berlaku untuk situs yang mengizinkan Anda mengubah kode atau menambahkan file. Jika ingin menghapus konten dari situs pihak ketiga, Anda perlu menghubungi webmaster untuk menghapus konten tersebut.

Bagaimana cara memperlambat crawling Google di situs saya?

Umumnya, Anda dapat menyesuaikan setelan kecepatan crawling di akun Google Search Console.

Pertanyaan terkait robots.txt

Saya menggunakan robots.txt yang sama untuk beberapa situs. Dapatkah saya menggunakan URL lengkap sebagai ganti jalur relatif?

Tidak. Perintah di file robots.txt (dengan pengecualian "Sitemap:") hanya berlaku untuk jalur relatif.

Dapatkah saya menempatkan file robots.txt di subdirektori?

Tidak. File harus ditempatkan di direktori paling atas pada situs.

Saya ingin memblokir folder pribadi. Dapatkah saya mencegah orang lain membaca file robots.txt saya?

Tidak. File robots.txt tetap dapat dibaca oleh berbagai pengguna. Jika folder atau nama file konten tidak seharusnya bersifat publik, folder atau nama file tersebut tidak boleh dicantumkan di file robots.txt. Sebaiknya Anda tidak menyajikan file robots.txt yang berbeda berdasarkan agen pengguna atau atribut lainnya.

Apakah saya harus menyertakan perintah allow untuk mengizinkan crawling?

Tidak, Anda tidak perlu menyertakan perintah allow. Perintah allow digunakan untuk menggantikan perintah disallow dalam file robots.txt yang sama.

Apa yang terjadi jika ada kesalahan di file robots.txt saya atau saya menggunakan perintah yang tidak didukung?

Crawler web umumnya sangat fleksibel dan biasanya tidak akan terpengaruh oleh kesalahan kecil di file robots.txt. Umumnya, hal terburuk yang dapat terjadi adalah perintah yang salah/tidak didukung akan diabaikan. Perlu diingat bahwa Google tidak dapat membaca pikiran Anda saat menafsirkan file robots.txt; sehingga kami harus menafsirkan file robots.txt yang kami ambil. Meskipun demikian, jika Anda menyadari masalah di file robots.txt, masalah tersebut biasanya mudah diperbaiki.

Program apa yang harus saya gunakan untuk membuat file robots.txt?

Anda dapat menggunakan program apa pun yang mampu membuat file teks yang valid. Program yang umumnya digunakan untuk membuat file robots.txt adalah Notepad, TextEdit, vi, atau emacs. Baca cara membuat file robots.txt lebih lanjut. Setelah jadi, validasi file menggunakan penguji robots.txt.

Jika saya memblokir crawling halaman oleh Google menggunakan perintah disallow di robots.txt, apakah halaman tidak akan ditampilkan di hasil penelusuran?

Memblokir Google meng-crawl halaman cenderung menghapus halaman tersebut dari indeks Google. 

Akan tetapi, perintah Disallow pada robots.txt tidak menjamin halaman tidak akan ditampilkan dalam hasil penelusuran: Google mungkin masih menimbang apakah hal tersebut relevan berdasarkan informasi eksternal, seperti link masuk. Jika ingin memblokir halaman dari pengindeksan secara eksplisit, sebaiknya Anda menggunakan tag meta robots noindex atau header HTTP X-Robots-Tag. Dalam hal ini, sebaiknya Anda tidak melarang halaman dalam robots.txt, karena halaman harus di-crawl agar tag dapat dilihat dan dipatuhi.

Berapa lama waktu yang dibutuhkan agar perubahan di file robots.txt memengaruhi hasil penelusuran saya?

Pertama, cache file robots.txt harus di-refresh (kami umumnya menyimpan cache konten hingga 1 hari). Meskipun setelah menemukan perubahan, crawling dan pengindeksan adalah proses rumit yang terkadang membutuhkan waktu untuk URL individu, sehingga sulit bagi kami untuk memberikan batas waktu secara tepat. Perlu diingat, meskipun file robots.txt Anda melarang akses ke URL, URL tersebut tetap dapat terlihat di hasil penelusuran, meskipun kami tidak bisa meng-crawlnya. Jika Anda ingin mempercepat penghapusan halaman yang telah diblokir dari Google, harap kirimkan permintaan penghapusan melalui Google Search Console.

Bagaimana cara menangguhkan semua crawling dari situs saya untuk sementara?

Anda dapat menangguhkan semua crawling untuk sementara dengan mengembalikan kode hasil HTTP 503 untuk semua URL, termasuk file robots.txt. File robots.txt tersebut akan dicoba ulang secara berkala hingga dapat diakses kembali. Sebaiknya Anda tidak mengubah file robots.txt untuk melarang crawling.

Server saya tidak peka terhadap huruf besar dan kecil. Bagaimana cara melarang crawling sepenuhnya untuk beberapa folder?

Perintah dalam file robots.txt peka terhadap huruf besar dan kecil. Dalam hal ini, sebaiknya Anda memastikan hanya 1 versi URL yang diindeks menggunakan metode kanonikalisasi. Tindakan ini memungkinkan Anda menyederhanakan file robots.txt. Jika hal ini tidak mungkin dilakukan, sebaiknya Anda mencantumkan kombinasi umum dari nama folder, atau menyingkatnya sesingkat mungkin, dengan hanya menggunakan beberapa karakter pertama, bukannya nama lengkap. Misalnya, sebagai ganti dari mencantumkan semua permutasi huruf besar dan kecil dari "/MyPrivateFolder", Anda bisa mencantumkan permutasi dari "/MyP" (jika Anda yakin bahwa tidak ada URL lain yang dapat di-crawl menggunakan beberapa karakter pertama tersebut). Sebagai gantinya, Anda juga dapat menggunakan tag meta robots atau header HTTP X-Robots-Tag jika crawling tidak mengalami masalah.

Situs saya mengembalikan kode 403 "Terlarang" untuk semua URL, termasuk file robots.txt. Mengapa situs ini masih di-crawl?

Kode hasil HTTP 403—seperti halnya kode hasil HTTP 4xx lainnya—menandakan tidak adanya file robots.txt. Oleh sebab itu, crawler umumnya akan menganggap bahwa semua URL di situs dapat di-crawl. Untuk memblokir crawling situs, robots.txt harus dikembalikan secara normal (dengan kode hasil HTTP 200 "OK") dengan menyertakan "disallow" yang sesuai.

Pertanyaan terkait tag meta robots

Apakah tag meta robots menjadi pengganti file robots.txt?

Tidak. File robots.txt mengontrol halaman yang diakses. Tag meta robots mengontrol apakah halaman diindeks atau tidak, namun halaman harus di-crawl terlebih dahulu untuk melihat tag ini. Jika crawling halaman bermasalah (misalnya, jika laman menyebabkan pemuatan yang berat pada server), Anda harus menggunakan file robots.txt. Jika hanya masalah apakah halaman ditampilkan atau tidak di hasil penelusuran, Anda dapat menggunakan tag meta robots.

Dapatkah tag meta robots digunakan untuk memblokir pengindeksan bagian halaman?

Tidak, tag meta robots adalah setelan tingkat halaman.

Dapatkah saya menggunakan tag meta robots selain di bagian <head>?

Tidak, tag meta robots saat ini harus berada di bagian <head> pada halaman.

Apakah tag meta robots melarang crawling?

Tidak. Meskipun tag meta robots saat ini menunjukkan noindex, terkadang kami harus meng-crawl kembali URL tersebut untuk memeriksa apakah tag meta mengalami perubahan.

Apa perbedaan antara tag meta robots nofollow dan atribut link rel="nofollow"?

Tag meta robots nofollow berlaku untuk semua link yang ada di halaman. Atribut link rel="nofollow" hanya berlaku untuk link tertentu di halaman. Untuk informasi selengkapnya mengenai atribut link rel="nofollow", harap lihat artikel Pusat Bantuan kami terkait spam buatan pengguna dan rel = "nofollow".

Pertanyaan header HTTP X-Robots-Tag

Bagaimana cara memeriksa X-Robots-Tag untuk URL?

Cara mudah untuk melihat header server adalah menggunakan pemeriksa header server berbasis web atau menggunakan fitur "Fetch as Googlebot" di Google Search Console.

Apakah ini membantu?
Bagaimana cara meningkatkannya?