Sayfaları, bir robots.txt dosyası kullanarak engelleme veya kaldırma

robots.txt oluşturma aracı kullanımdan kaldırılıyor. Bir robots.txt dosyasını manuel olarak oluşturabilir veya web üzerindeki pek çok robots.txt oluşturma aracından birini kullanabilirsiniz.

robots.txt dosyası web'i tarayan arama motoru robotlarının sitenize erişimini kısıtlar. Bu botlar otomatiktir ve bir sitenin sayfalarına erişmeden önce, belirli sayfalara erişmelerini önleyen bir robots.txt dosyası olup olmadığını kontrol ederler. (Saygın robotların tümü bir robots.txt dosyasındaki yönergeleri gözetse de bazı robotlar yönergeleri farklı yorumlayabilir. Ancak, bir robots.txt dosyası dayatılamaz ve bazı spam göndericilerle diğer kötü amaçlı kişiler bu dosyayı göz ardı edebilir. Bu nedenle, gizli bilgileri şifreyle korumayı öneriyoruz.)

Google'ın, taraması engellenen URL'leri görmek için Web Yöneticisi Araçları'nın Tarama bölümündeki Engellenen URL'ler sayfasını ziyaret edin.

Yalnızca sitenizde arama motorlarının dizine eklemesini istemediğiniz içerik varsa robots.txt dosyasına ihtiyacınız olur. Arama motorlarının sitenizdeki her şeyi dizine eklemesini istiyorsanız, robots.txt dosyasına (boş olanına bile) ihtiyacınız yoktur.

Google, robots.txt tarafından engellenen içerik sayfalarını taramamasına veya dizine eklememesine karşın, URL’lerini web üzerindeki diğer sayfalarda bulduğu takdirde bu URL’leri dizine ekleyebilir. Sonuç olarak, sayfanın URL’si ve büyük olasılıkla bağlantı metni gibi halka açık olan veya Açık Dizin Projesi’ndeki (www.dmoz.org) başlık gibi diğer bilgiler Google arama sonuçlarında görüntülenebilir.

Bir robots.txt dosyası kullanmak için alan adınızın köküne erişebilmeniz gerekir (emin değilseniz, web barındırıcınızdan bunu öğrenebilirsiniz). Bir alan adının köküne erişiminiz yoksa, erişimi robots meta etiketini kullanarak kısıtlayabilirsiniz.

Sayfaya diğer sitelerden bağlantı verilse bile bu sayfadaki içeriğin Google web dizininde listelenmesini tümüyle engellemek için noindex meta etiketini veya x-robots-tag'ı kullanın. Google sayfayı getirdiğinde, bir noindex meta etiketi görecek ve bu sayfanın web dizininde görüntülenmesini önleyecektir. x-robots-tag HTTP üstbilgisi özellikle grafik veya diğer türdeki dokümanlar gibi HTML olmayan dosyaların dizine eklenmesini sınırlamak istediğinizde kullanışlıdır.

robots.txt dosyası oluşturma

En basit robots.txt dosyası iki kural kullanır:

  • User-agent: Aşağıdaki kuralın uygulandığı robot
  • Disallow: engellemek istediğiniz URL

Bu iki satır, dosyada tek bir giriş sayılır. İstediğiniz kadar giriş ekleyebilirsiniz. Tek girişe birden çok Disallow satırı ve birden çok user-agent ekleyebilirsiniz.

robots.txt dosyasındaki her bölüm ayrıdır ve önceki bölümlerin üzerinde oluşturulmaz. Örneğin:


User-agent: *
Disallow: /klasor1/

User-Agent: Googlebot
Disallow: /klasor2/

Bu örnekte yalnızca /klasor2/ ile eşleşen URL'lere Googlebot için izin verilmemektedir.

User-agent'lar ve botlar

User-agent, belirli bir arama motoru robotudur. Web Robotları Veritabanı’nda, sık kullanılan pek çok bot listelenir. Bir girişi belirli bir bota (adını listeleyerek) veya tüm botlara (yıldız işareti koyarak) uygulanacak şekilde ayarlayabilirsiniz. Tüm botlara uygulanan bir giriş şöyle görünür:

User-agent: *

Google, birbirinden farklı çeşitli botlar (user-agent'lar) kullanır. Web aramamız için kullandığımız bot, Googlebot’tur. Googlebot-Mobil ve Googlebot-Resim gibi diğer botlarımız, Googlebot için belirlediğiniz kurallara uyar; ancak bu botlar için özel olarak ek kurallar belirlemeniz de mümkündür.

User agent'ları engelleme

Disallow satırında engellemek istediğiniz sayfalar listelenir. Belirli bir URL’yi veya şablonu listeleyebilirsiniz. Girişin düz eğik çizgiyle (/) başlaması gerekir.

  • Sitenin tamamını engellemek için düz eğik çizgi kullanın.
    Disallow: /
  • Bir dizini ve o dizinin içinde bulunan tüm öğeleri engellemek için dizin adının sonuna bir düz eğik çizgi koyun.
    Disallow: /junk-directory/
  • Bir sayfayı engellemek için o sayfayı listeleyin.
    Disallow: /ozel_dosya.html
  • Belirli bir görseli Google Görseller'den kaldırmak için şunları ekleyin:
    User-agent: Googlebot-Image
    Disallow: /resimler/kopekler.jpg 
  • Sitenizdeki görsellerin tümünü Google Görseller'den kaldırmak için:
    User-agent: Googlebot-Image
    Disallow: / 
  • Belirli bir dosya türündeki dosyaları (örneğin, .gif) engellemek için şunları kullanın:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Sitenizdeki sayfalarda AdSense reklamları görüntülemeye devam ederken bu sayfaların taranmasını engellemek için Mediapartners-Google dışındaki tüm botları engelleyin. Bu, sayfaların arama sonuçlarında görünmesini engellemekle birlikte Mediapartners-Google robotunun gösterilecek reklamları belirlemek üzere sayfaları analiz etmesine olanak sağlar. Mediapartners-Google robotu, sayfaları diğer Google user-agent’ları ile paylaşmaz. Örneğin:
    User-agent: *
    Disallow: /
    
    User-agent: Mediapartners-Google
    Allow: /

Yönergelerin büyük/küçük harfe duyarlı olduğunu unutmayın. Örneğin, Disallow: /junk_file.asp http://www.example.com/junk_file.asp adresini engeller, ancak http://www.example.com/Junk_file.asp adresine izin verir. Googlebot robots.txt içindeki bilinmeyen yönergeleri ve boşluğu (belirli boş satırlarda) yoksayar.

Googlebot Site Haritası dosyalarının robots.txt dosyası üzerinden gönderilmesini destekler.

Dize kalıbı eşlemesi

Googlebot (ama tüm arama motorları değil) bazı dize kalıbı eşlemelerini dikkate alır.

  • Karakterlerden oluşan bir diziyle eşlemek için yıldız (*) kullanabilirsiniz. Örneğin, özel ile başlayan tüm alt dizinlere erişimi engellemek için:
    User-agent: Googlebot
    Disallow: /ozel*/
  • Soru işareti (?) içeren tüm URL'lere erişimi engellemek için (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'leri taramasını engellemek için):
    User-agent: Googlebot
    Disallow: /*?
  • URL sonu eşlemesini belirtmek için $ karakterini kullanın. Örneğin, .xls ile biten tüm URL'leri engellemek için:
    User-agent: Googlebot 
    Disallow: /*.xls$

    Bu dize kalıbı eşlemesini, Allow yönergesi ile birlikte kullanabilirsiniz. Örneğin, ? bir oturum kimliğini gösteriyorsa bu öğeleri içeren tüm URL'leri dışlayarak Googlebot'un aynı sayfaları taramasını önleyebilirsiniz. Ancak ? ile biten URL'ler, eklenmesini istediğiniz sayfanın sürümü olabilir. Bu durumda, robots.txt dosyanızı aşağıda gösterildiği biçimde ayarlayabilirsiniz:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    Disallow: / *? yönergesi ? içeren tüm URL'leri engeller (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'lerin tümünü engeller).

    Allow: /*?$ yönergesi, ? ile biten URL'lere izin verir (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından bir dize ile birlikte bir ? gelen ve ? işaretinden sonra hiç karakter içermeyen URL'lerin tümüne izin verir).

Dosyayı indirerek veya içeriği bir metin dosyasına kopyalayıp robots.txt olarak kaydederek robots.txt dosyanızı kaydedin. Bu dosyayı sitenizin en üst düzey dizinine kaydedin. robots.txt dosyası, etki alanının kök dizinine yerleştirilmeli ve “robots.txt” olarak adlandırılmalıdır. Botlar bu dosyayı yalnızca etki alanının kök düzeyinde kontrol ettiği için, alt dizinde bulunan bir robots.txt dosyası geçerli değildir. Örneğin, http://www.example.com/robots.txt geçerli bir yerdir ancak http://www.example.com/sitem/robots.txt geçerli bir yer değildir.

robots.txt dosyasını test etme

robots.txt testi aracı, robots.txt dosyanızın sitenizdeki bir dosyaya veya dizine Googlebot'un erişimini yanlışlıkla engelleyip engellemediğini veya Web'de görünmemesi gereken dosyaları Googlebot'un taramasına izin verip vermediğini gösterir. Önerilen bir robots.txt dosyasının metnini girdiğinizde bu araç bu metni, Googlebot ile aynı şekilde okur ve dosyanın etkilerini ve bulunan tüm sorunları listeler.

Bir sitenin robots.txt dosyasını test etme:

  1. Web Yöneticisi Araçları ana sayfasında istediğiniz siteyi tıklayın.
  2. Tarama altında, Engellenen URL'ler'i tıklayın.
  3. Henüz seçili değilse robots.txt testi sekmesini tıklayın.
  4. Robots.txt dosyanızın içeriğini kopyalayın ve ilk kutuya yapıştırın.
  5. URL'ler kutusunda test edilecek siteyi listeleyin.
  6. User-agent'lar listesinde istediğiniz user-agent'ları seçin.

Bu araçta yaptığınız hiçbir değişiklik kaydedilmez. Değişiklikleri kaydetmek için içerikleri kopyalamanız ve robots.txt dosyasına yapıştırmanız gereklidir.

Bu araç yalnızca Google user-agent'lar (ör. Googlebot) için sonuçlar verir. Diğer botlar ise robots.txt dosyasını aynı şekilde tanımayabilir. Örneğin, Googlebot standart robots.txt protokolünün genişletilmiş tanımını destekler. Allow: Yönergelerinin yanı sıra bazı dize kalıbı eşlemelerini de tanır. Dolayısıyla araç, tanıdığı bu uzantıları içeren satırları gösterse de, bunun yalnızca Googlebot için geçerli olduğunu ve sitenizi tarayabilecek diğer botlar için geçerli olması gerekmediğini unutmayın.