URL'leri robots.txt ile engelleme

Robots.txt dosyaları hakkında bilgi edinme

Robots.txt dosyası nedir?

Robots.txt dosyası, arama motoru tarayıcılarına sitenizden isteyebilecekleri ve isteyemeyecekleri sayfaları veya dosyaları söyler. Bu yöntem çoğunlukla isteklerin sitenizde yoğunluğa yol açmasını engellemek için kullanılır; web sayfalarını Google'ın dışında tutmak için kullanılabilecek bir mekanizma değildir. Bir web sayfasını Google'ın dışında tutmak için noindex etiketleri veya yönergeleri kullanmanız ya da sayfanızı şifreyle korumanız gerekir.

Robots.txt ne için kullanılır?

Robots.txt esas olarak sitenizin tarayıcı trafiğini yönetmek, zaman zaman da bir sayfayı Google'ın dışında tutmak için kullanılır. Robots.txt'nin ne için kullanılacağı dosya türüne bağlıdır:

Sayfa Türü Trafik yönetimi Google'dan gizleme Açıklama
Web sayfası

Robots.txt, Google'ın tarayıcısından gelen isteklerin sunucunuzda yoğunluğa yol açacağını düşünüyorsanız web sayfalarının (HTML, PDF veya Google'ın okuyabildiği diğer medya dışı biçimler) tarama trafiğini yönetmek veya sitenizdeki önemsiz ya da birbirine benzer sayfaların taranmasını önlemek için kullanılabilir.

Robots.txt dosyasını, web sayfalarınızı Google Arama sonuçlarından gizlemenizi sağlayan bir araç olarak kullanmamalısınız. Çünkü başka sayfalar açıklayıcı metinle kullanıcıları sayfanıza yönlendirirse sayfanız ziyaret edilmemesine rağmen dizine eklenebilir. Sayfanızın arama sonuçlarında görünmesini engellemek istiyorsanız şifre koruması veya noindex yönergesi gibi başka bir yöntem kullanın.

Web sayfanız robots.txt dosyasıyla engelleniyorsa arama sonuçlarında görünmeye devam edebilir, ancak arama sonucunda açıklama olmaz ve şöyle görünür. Resim dosyaları, video dosyaları, PDF'ler ve HTML olmayan diğer dosyalar gösterilmez. Sayfanız için bu arama sonucunu görüyorsanız ve düzeltmek istiyorsanız sayfayı engelleyen robots.txt girişini kaldırın. Sayfayı arama sonuçlarından tamamen gizlemek istiyorsanız başka bir yöntem kullanın.

Medya dosyası

Tarama trafiğini yönetmek ve resim, video, ses dosyalarının Google arama sonuçlarında görünmesini engellemek için robots.txt dosyasını kullanın. (Bu yöntemin, diğer sayfaların veya kullanıcıların resim/video/ses dosyanıza bağlantı vermesini engellemeyeceğini unutmayın.)

Kaynak dosyası

Önemli olmayan resim, komut dosyası veya stil dosyaları gibi kaynakları engellemek için robots.txt dosyasını kullanabilirsiniz. Bu yöntemi, engellenen kaynaklar olmadan yüklenen sayfaların bu kayıptan önemli ölçüde etkilenmeyeceğini düşünüyorsanız uygulayın. Ancak, bu kaynakların eksikliği Google tarayıcısının sayfayı anlamasını zorlaştıracaksa bunları engellememelisiniz. Aksi halde Google, bu kaynaklara dayanan sayfaları iyi bir şekilde analiz edemez.

Site barındırma hizmeti kullanıyorum

WIX, Drupal veya Blogger gibi bir web sitesi barındırma hizmeti kullanıyorsanız robots.txt dosyanızı doğrudan düzenlemeniz gerekmeyebilir (mümkün olmayabilir). Bunun yerine, sağlayıcınız arama motorlarına sayfanızın taranıp taranmayacağını söylemek için sayfa ayarı veya başka bir mekanizma kullanabilir.

Sayfanızın Google tarafından taranıp taranmadığını görmek için Google'da sayfanın URL'sini arayın.

Sayfanızı gizlemek (veya göstermek) istiyorsanız sayfa giriş gereksinimleri ekleyin (veya kaldırın) ve sitenizin barındırma hizmetinde sayfanızın arama motorlarındaki görünürlüğünü değiştirme ile ilgili talimatları Google'da arayın. Örneğin: wix arama motorlarından sayfa gizleme.

Robots.txt ile ilgili sınırlamaları anlama

Robots.txt dosyası oluşturmadan veya düzenlemeden önce bu URL engelleme yönteminin sınırlarını bilmelisiniz. Bazı zamanlarda URL'lerinizin web üzerinde bulunmasını önlemek için başka mekanizmaları değerlendirmek isteyebilirsiniz.

  • Robots.txt talimatları yalnızca yönergelerdir
    Robots.txt dosyasındaki talimatlar, tarayıcının web sitenizde nasıl davranacağına ilişkin zorunluluk getiremez. Bunun yerine, bu talimatlar, tarayıcının sitenize erişmesine ilişkin yönergeler olarak görev yapar. Googlebot ve diğer tanınmış web tarayıcıları bir robots.txt dosyasındaki talimatlara uysalar da diğer tarayıcılar uymayabilir. Bu nedenle, bilgileri web tarayıcılarının erişemeyeceği şekilde güvende tutmak istiyorsanız sunucunuzdaki gizli dosyaları şifreyle koruma gibi farklı yöntemlerin kullanılması daha iyidir.
  • Farklı tarayıcılar söz dizimini farklı yorumlayabilir
    Tanınmış web tarayıcıları bir robots.txt dosyasındaki yönergeleri uygulasalar da her bir tarayıcı, yönergeleri farklı şekilde yorumlayabilir. Bazıları belirli talimatları anlayamayabileceğinden, farklı web tarayıcılarına hitap etmek üzere doğru söz dizimini bilmeniz gerekir.
  • Robot dosyasıyla engellenen bir sayfa, başka sitelerde bağlantı verildiği takdirde yine de dizine eklenebilir
    Google, robots.txt tarafından engellenen içeriği taramayacak veya dizine eklemeyecek olsa da, izin verilmeyen bir URL'ye web üzerinde başka bir yerde bağlantı verildiyse, bu URL'yi bulup dizine ekleyebiliriz. Bunun sonucunda URL adresi ve muhtemelen sayfaya verilen bağlantılardaki metinler gibi genel kullanıma açık diğer bilgiler Google arama sonuçlarında çıkmaya devam edebilir. URL'nizin Google Arama sonuçlarında görünmesini doğru bir şekilde engellemek için sunucunuzdaki dosyaları şifreyle korumanız veya noindex meta etiketi ya da yanıt üst bilgisi kullanmanız (veya sayfayı tamamen kaldırmanız) gerekir.
Not: Birden fazla tarama ve dizine ekleme yönergesinin birlikte kullanılması, bazı yönergelerin diğerlerini etkisiz kılmasına yol açabilir. Bu yönergeleri düzgün bir şekilde nasıl yapılandıracağınızı öğrenmek için Google Developers dokümanlarının Taramayı dizine ekleme/sunma yönergeleriyle birleştirme bölümünü okuyabilirsiniz.

Bir sayfada robots.txt engellemesi olup olmadığını test etme

Bir sayfanın veya kaynağın robots.txt kuralı tarafından engellenip engellenmediğini test edebilirsiniz.

noindex yönergelerini test etmek için URL Denetleme aracını kullanın.

Bu makale faydalı mıydı?
Bunu nasıl iyileştirebiliriz?