Zablokování nebo odstranění stránek pomocí souboru robots.txt

Nástroj pro generování souboru robots.txt bude ukončen. Soubor robots.txt můžete vytvořit ručně nebo můžete použít některý z nástrojů na vytváření souborů robots.txt, které jsou k dispozici na internetu.

Soubor robots.txt omezuje přístup robotů vyhledávačů, které prochází web, na vaše stránky. Tito roboti pracují automaticky a před přístupem na jednotlivé stránky webových stránek kontrolují, zda neexistuje soubor robots.txt, který by jim bránil v přístupu na některé stránky. (Všechny slušné prohledávače budou příkazy v souboru robots.txt respektovat, ale některé je mohou interpretovat odlišně. Respektování souboru robots.txt ale není vynutitelné a někteří šiřitelé nežádoucího obsahu a jiní potížisté jej mohou ignorovat. Proto doporučujeme chránit důvěrné informace heslem.)

Chcete-li zobrazit adresy URL, jejichž procházení jste Googlu zablokovali, přejděte v Nástrojích pro webmastery v části Procházení na stránku Blokované adresy URL.

Soubor robots.txt potřebujete, pouze pokud se na vašich stránkách nachází obsah, který nechcete indexovat vyhledávači. Chcete-li, aby vyhledávače indexovaly vše, co se nachází na vašich stránkách, soubor robots.txt nepotřebujete (a to ani prázdný).

Ačkoli obsah stránek zablokovaných pomocí souboru robots.txt nebude Google procházet ani indexovat, můžeme i nadále indexovat jejich adresy URL, pokud je nalezneme na jiných stránkách na internetu. V důsledku toho se ve výsledcích vyhledávání Google může zobrazit adresa URL této stránky a případně také další veřejně dostupné informace, např. text odkazů na stránky nebo název v adresáři Open Directory Project (www.dmoz.org).

Chcete-li použít soubor robots.txt, budete potřebovat přístup do kořenového adresáře své domény (pokud si nejste jisti, kontaktujte svého hostitele webu). Nemáte-li přístup ke kořenovému adresáři domény, můžete přístup omezit pomocí metaznačky pro roboty.

Chcete-li zcela zamezit přidání obsahu stránky do webového indexu Google, přestože na ni odkazují jiné webové stránky, použijte značku metadat noindex nebo záhlaví protokolu HTTP x-robots-tag. Když Googlebot stránku načte, rozpozná značku metadat noindex a zabrání zařazení stránky do webového indexu. Záhlaví protokolu HTTP x-robots-tag je obzvlášť užitečné, pokud chcete omezit indexování souborů v jiném formátu než HTML, jako jsou obrázky nebo jiné druhy dokumentů.

Vytvoření souboru robots.txt

Nejjednodušší soubor robots.txt se řídí dvěma pravidly:

  • User-agent: prohledávač, na něhož se vztahuje následující pravidlo.
  • Disallow: adresa URL, kterou chcete zablokovat.

Tyto dva řádky se v souboru považují za jednu položku. Můžete zahrnout libovolný počet položek. Do jedné položky můžete zahrnout více řádků Disallow a více řádků uživatelských agentů.

Každá sekce v souboru robots.txt je samostatná a nestaví na předchozích sekcích. Například:


User-agent: *
Disallow: /slozka1/

User-Agent: Googlebot

Disallow: /slozka2/

V tomto příkladu budou pro prohledávač Googlebot zablokovány pouze adresy URL odpovídající vzoru /slozka2/.

Roboti user-agent a prohledávače

User-agent je specifický prohledávač. Databáze internetových prohledávačů obsahuje mnoho běžných prohledávačů. Položku můžete nastavit tak, aby se vztahovala na konkrétní prohledávač (uvedením názvu) nebo na všechny prohledávače (uvedením symbolu hvězdička). Položka, která se vztahuje na všechny prohledávače, vypadá takto:

User-agent: *

Google používá několik různých prohledávačů (robotů user-agent). Pro webové vyhledávání používáme prohledávač Googlebot. Naše další prohledávače, např. Googlebot-Mobile a Googlebot-Image, se řídí pravidly nastavenými pro prohledávač Googlebot, můžete pro ně však nastavit také specifická pravidla.

Blokování robotů user-agent

Na řádku Disallow jsou uvedeny stránky, které chcete zablokovat. Můžete zde uvést konkrétní adresu URL nebo vzor. Položka musí začínat lomítkem (/).

  • Chcete-li blokovat celý web, použijte lomítko.
    Disallow: /
  • Chcete-li blokovat adresář a vše, co obsahuje, zadejte lomítko za název adresáře.
    Disallow: /blokovaný_adresář/
  • Chcete-li blokovat stránku, uveďte příslušnou stránku.
    Disallow: /soukromy_soubor.html
  • Chcete-li odebrat určitý obrázek z Vyhledávání obrázků Google, přidejte následující položku:
    User-agent: Googlebot-Image
    
    Disallow: /obrazky/psi.jpg 
  • Chcete-li odebrat veškeré obrázky svých stránek z Vyhledávání obrázků Google:
    User-agent: Googlebot-Image
    
    Disallow: / 
  • Pokud chcete zablokovat soubory určitého typu (např. soubory .gif), použijte následující řetězec:
    User-agent: Googlebot
    
    Disallow: /*.gif$
  • Chcete-li zabránit procházení stránek na svém webu, ale zároveň na těchto stránkách povolit reklamy AdSense, zakažte (příkazem disallow) všechny prohledávače kromě Mediapartners-Google. Stránky se nebudou zobrazovat ve výsledcích vyhledávání, ale prohledávač Googlebot-MediaPartners bude moci analyzovat stránky a určit, jaké reklamy má zobrazit. Prohledávač Googlebot-MediaPartners nesdílí stránky s ostatními roboty user-agent Google. Příklad:
    User-agent: *
    Disallow: /
    
    User-agent: MediaPartners-Google
    
    Allow: /

V příkazech se rozlišují velká a malá písmena. Příkaz Disallow: /blokovany_soubor.asp například zablokuje soubor http://www.example.cz/blokovany_soubor.asp, ale povolí soubor http://www.example.cz/Blokovany_soubor.asp. Googlebot bude v souboru robots.txt ignorovat mezery (konkrétně prázdné řádky) a neznámé příkazy.

Googlebot podporuje odesílání souborů Sitemap prostřednictvím souboru robots.txt.

Přiřazování vzorů

Googlebot (ale ne všechny vyhledávače) respektuje určité přiřazování vzorů.

  • Chcete-li přiřadit posloupnost znaků, můžete použít hvězdičku (*). Chcete-li například zablokovat přístup do všech podadresářů začínajících slovem soukrome, můžete použít následující položku:
    User-agent: Googlebot
    
    Disallow: /soukrome*/
  • Chcete-li zablokovat přístup na všechny adresy URL obsahující otazník (?), můžete použít následující položku (konkrétněji, veškeré adresy URL začínající vaším názvem domény, po němž následuje libovolný řetězec následovaný otazníkem, po němž opět následuje libovolný řetězec):
    User-agent: Googlebot
    
    Disallow: /*?
  • Chcete-li specifikovat koncové znaky adresy URL, použijte znak $. Chcete-li například blokovat všechny adresy URL, které končí příponou .xls, použijte následující položku:
    User-agent: Googlebot
     
    Disallow: /*.xls$

    Toto přiřazování vzorů lze používat v kombinaci s příkazem Allow. Pokud například znak ? označuje ID relace, pravděpodobně budete chtít vyloučit všechny adresy URL, které je obsahují. Tím zajistíte, že prohledávač Googlebot nebude procházet duplicitní stránky. Avšak adresy URL končící znakem ? mohou představovat verzi stránky, kterou chcete zařadit. V takovém případě můžete svůj soubor robots.txt nastavit takto:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    Příkaz Disallow: / *? zablokuje veškeré adresy URL, které obsahují symbol „?“ (konkrétně zablokuje veškeré adresy URL začínající vaším názvem domény, po němž následuje jakýkoli řetězec následovaný otazníkem, po němž opět následuje jakýkoli řetězec).

    Příkaz Allow: /*?$ povolí veškeré adresy URL, které končí znakem „?“ (konkrétně povolí veškeré adresy URL začínající vaším názvem domény, po němž následuje řetězec následovaný symbolem „?“, po kterém už žádné znaky nenásledují).

Soubor robots.txt můžete stáhnout nebo obsah zkopírovat do textového souboru, který uložíte s názvem robots.txt. Uložte soubor do adresáře na nejvyšší úrovni vašeho webu. Soubor robots.txt musí být umístěn v kořenovém adresáři domény a musí mít název „robots.txt“. Soubor robots.txt umístěný v podadresáři není platný, jelikož roboty tento soubor hledají pouze v kořenovém adresáři domény. Adresa http://www.example.cz/robots.txt je příklad platného umístění, kdežto adresa http://www.example.cz/web/robots.txt je umístění neplatné.

Otestování souboru robots.txt

Nástroj Otestovat soubor robots.txt vás informuje, pokud soubor robots.txt náhodou blokuje přístup Googlebota k některému souboru nebo adresáři na stránkách nebo pokud soubor umožňuje Googlebotu procházet soubory, které by se na webu neměly zobrazit. Když zadáte text navrhovaného souboru robots.txt, přečte jej nástroj stejným způsobem jako prohledávač Googlebot a vypíše účinky souboru a případné zjištěné problémy.

Postup testování souboru robots.txt webu:

  1. Na domovské stránce Nástrojů pro webmastery klikněte na požadovaný web.
  2. Klikněte na možnost Procházení a potom na možnost Blokované adresy URL.
  3. Vyberte kartu Otestovat soubor robot.txt, pokud již není vybrána.
  4. Zkopírujte obsah souboru robots.txt a vložte jej do prvního pole.
  5. V poli Adresy URL uveďte stránky, které chcete otestovat.
  6. V seznamu Uživatelské agenty vyberte požadované roboty user-agent.

Změny provedené v tomto nástroji nebudou uloženy. Chcete-li změny uložit, je potřeba obsah zkopírovat a vložit do souboru robots.txt.

Tento nástroj poskytuje výsledky pouze pro roboty user-agent společnosti Google (jako např. Googlebot). Jiní roboti mohou soubor robots.txt interpretovat odlišně. Googlebot například podporuje rozšířenou definici standardního protokolu robots.txt. Podporuje příkazy Allow: a také určité zástupné symboly. Přestože tedy nástroj zobrazí, že řádkům, které zahrnují tato rozšíření, rozumí, platí to pouze pro Googlebota. Pro ostatní roboty, kteří mohou vaše stránky procházet, to nutně platit nemusí.