Informace o souboru robots.txt

Vytvoření souboru robots.txt

Pokud používáte službu hostování webů, například Wix nebo Blogger, možná soubor robots.txt vytvářet ani upravovat nemusíte.

Začínáme

Soubor robots.txt se nachází v kořenovém adresáři webu. V případě webu www.example.com se tedy nachází v umístění www.example.com/robots.txt. Jedná se o prostý textový soubor odpovídající standardu Robots Exclusion Standard. Soubor robots.txt se skládá z jednoho nebo více pravidel. Každé pravidlo blokuje (nebo povoluje) přístup konkrétního prohledávače k určité cestě souborů na webu.

Příklad jednoduchého souboru robots.txt se dvěma pravidly:

# Skupina 1
User-agent: Googlebot
Disallow: /googlebot_ne/


# Skupina 2
User-agent: *
Allow: /


Sitemap: http://www.example.com/sitemap.xml

 

Vysvětlení:

  1. User-agent s názvem Googlebot nemá procházet složku http://example.com/googlebot_ne/ ani žádné její podsložky.
  2. Všechny ostatní user-agenty mají přístup k celému webu. (Toto pravidlo by bylo možné vynechat a výsledek by byl stejný, protože úplný přístup je udělen ve výchozím nastavení.)
  3. Soubor Sitemap webu se nachází na adrese http://www.example.com/sitemap.xml.

Podrobnější příklad naleznete níže.

Základní pokyny pro soubory robots.txt

Zde je několik základních pokynů pro soubory robots.txt. Doporučujeme vám přečíst si úplnou syntaxi souborů robots.txt. Zahrnuje totiž drobné detaily, se kterými byste se měli seznámit.

Formát a umístění

K vytvoření souboru robots.txt můžete použít téměř kterýkoliv textový editor. Textový editor by měl umožňovat vytváření standardních textových souborů s kódováním UTF-8. Nepoužívejte textový procesor (tj. editor formátovaného textu). Textové procesory často ukládají soubory ve speciálním formátu a mohou do nich přidávat neočekávané znaky (například typografické uvozovky), které prohledávačům mohou způsobit problémy.

K vytvoření nebo úpravám souborů robots.txt pro svůj web můžete využít nástroj na testování souborů robots.txt. Můžete pomocí něj zkontrolovat syntaxi a chování souboru na webu.

Pravidla pro formát a umístění:

  • Soubor musí mít název robots.txt.
  • Každý web smí mít jen jeden soubor robots.txt.
  • Soubor robots.txt se musí nacházet v kořenové složce webu, kterého se týká. Například soubor robots.txt k ovládání procházení všech adres URL na webu http://www.example.com/ se musí nacházet na adrese http://www.example.com/robots.txt. Soubor nelze umístit do podadresáře (http://example.com/stranky/robots.txt). Pokud nevíte, jak se do kořenového adresáře webu dostat, nebo k tomu potřebujete oprávnění, kontaktujte svého poskytovatele webového hostingu. Jestliže ke kořenové složce webu nemáte přístup, použijte alternativní metody blokování, např. metaznačky.
  • Soubor robots.txt lze použít pro subdomény (např. http://web.example.com/robots.txt) nebo nestandardní porty (např. http://example.com:8181/robots.txt).
  • Komentáře jsou veškerý obsah za znakem #.

Syntaxe

  • Soubor robots.txt musí být textový soubor s kódováním UTF-8 (které zahrnuje kódování ASCII). Použití jiných znakových sad není možné.
  • Soubor robots.txt se skládá z jedné nebo více skupin.
  • Každá skupina se skládá z několika pravidel nebo direktiv (pokynů). Každá direktiva je uvedena na samostatném řádku.
  • Skupina obsahuje následující informace:
    • na koho se vztahuje (user-agent),
    • ke kterým adresářům či souborům příslušný agent přístup nebo
    • ke kterým adresářům nebo souborům příslušný agent přístup nemá.
  • Skupiny se zpracovávají shora dolů a na každého user-agenta se může vztahovat jen jedna sada pravidel – první nejkonkrétnější pravidlo, které se jej týká.
  • Výchozí předpoklad je, že user-agent může procházet všechny stránky a adresáře, které nejsou blokovány pravidlem Disallow:.
  • V pravidlech se rozlišují velká a malá písmena. Například příkaz Disallow: /soubor.asp zablokuje procházení souboru http://www.example.com/soubor.asp, ale procházení souboru http://www.example.com/SOUBOR.asp nikoliv.

V souborech robots.txt se používají následující direktivy:

  • User-agent: [Povinné minimálně jednou v každém pravidle] Název robota vyhledávače (software na procházení webu), na kterého se pravidlo vztahuje. Toto je první řádek každého pravidla. Názvy většiny user-agentů Google jsou uvedeny v databázi webových robotů nebo v seznamu user-agentů Google. Je podporován zástupný znak * pro předponu či příponu cesty nebo pro celý řetězec. Když použijete zástupný znak (*) jako v příkladu níže, bude se pravidlo vztahovat na všechny prohledávače kromě prohledávačů AdsBot, které musí být uvedeny explicitně. (Seznam názvů prohledávačů od Googlu) Příklady:
    # Příklad 1: Blokovat jen Googlebota
    User-agent: Googlebot
    Disallow: /
    
    
    # Příklad 2: Blokovat Googlebota a Adsbota
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Příklad 3: Blokovat všechny roboty kromě prohledávačů AdsBot
    User-agent: * 
    Disallow: /
  • Disallow: [Minimálně jedna direktiva Disallow nebo Allow na pravidlo] Adresář nebo stránka relativní ke kořenové doméně, kterou user-agent nemá procházet. V případě stránky by se mělo jednat o úplný název stránky tak, jak se zobrazuje v prohlížeči. V případě adresářů by hodnota měla končit lomítkem (/).  Je podporován zástupný znak * pro předponu či příponu cesty nebo pro celý řetězec.
  • Allow: [Minimálně jedna direktiva Disallow nebo Allow na pravidlo] Adresář nebo stránka relativní ke kořenové doméně, kterou právě zmíněný user-agent má procházet. Používá se k přepsání direktivy Disallow s cílem povolit procházení podadresáře nebo stránky v zakázaném adresáři. V případě stránky by se mělo jednat o úplný název stránky tak, jak se zobrazuje v prohlížeči. V případě adresářů by hodnota měla končit lomítkem (/). Je podporován zástupný znak * pro předponu či příponu cesty nebo pro celý řetězec.
  • Sitemap: [Volitelné, nula nebo více direktiv na soubor] Umístění souboru Sitemap tohoto webu. Musí se jednat o plně kvalifikovanou adresu URL. Google nekontroluje alternativní verze s protokolem http či https ani s předponou www či bez ní. Soubory Sitemap Googlu nesdělují, který obsah může nebo nesmí procházet, ale který obsah by měl procházet. Další informace o souborech Sitemap. Příklad:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Ostatní pravidla se ignorují.

Další ukázkový soubor

Soubor robots.txt se skládá z jedné nebo více skupin, z nichž každá začíná řádkem User-agent, který určuje cíl skupiny. Zde je příklad souboru se dvěma skupinami (vložené komentáře jednotlivé skupiny vysvětlují):

# Blokovat prohledávači googlebot přístup do umístění example.com/adresar1/... a example.com/adresar2/...,
# ale povolit mu přístup do umístění adresar2/podadresar1/...
# Všechny ostatní adresáře na webu jsou ve výchozím nastavení přístupné.
User-agent: googlebot
Disallow: /adresar1/
Disallow: /adresar2/
Allow: /adresar2/podadresar1/

# Blokovat přístup k celému webu prohledávači jinyprohledavac.
User-agent: jinyprohledavac
Disallow: /

Úplná syntaxe souboru robots.txt

Úplnou syntaxi souboru robots.txt najdete zde. Prostudujte si prosím celou dokumentaci, protože tato syntaxe má určité záludnosti, které je potřeba znát.

Užitečná pravidla souborů robots.txt

Zde je několik běžných užitečných pravidel souborů robots.txt:

Pravidlo Příklad
Zakázání procházení celého webu. Mějte na paměti, že v některých situacích mohou být adresy URL z webu indexovány i bez procházení. Nebudou ovlivněny různé prohledávače AdsBot, které musí být uvedeny explicitně.
User-agent: *
Disallow: /
Zakázání procházení adresáře a jeho obsahu zadáním názvu adresáře a lomítka: Soubor robots.txt byste neměli používat k blokování přístupu k soukromému obsahu. Použijte namísto toho řádné ověření. Adresy URL, jejichž procházení je zakázáno souborem robots.txt, mohou být i bez procházení indexovány. Soubor robots.txt může také kdokoliv zobrazit a mohl by z něj zjistit umístění vašeho soukromého obsahu.
User-agent: *
Disallow: /kalendar/
Disallow: /smeti/
Povolení přístupu jednomu prohledávači
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Povolení přístupu všem prohledávačům kromě jednoho
User-agent: Nepotrebny-robot
Disallow: /

User-agent: *
Allow: /

Zakázání procházení jedné webové stránky uvedením této stránky za lomítkem:

User-agent: *
Disallow: /soukromy_soubor.html

Blokování zahrnutí konkrétního obrázku do Obrázků Google:

User-agent: Googlebot-Image
Disallow: /obrazky/psi.jpg

Blokování zahrnutí všech obrázků na webu do Obrázků Google:

User-agent: Googlebot-Image
Disallow: /

Zakázání procházení souborů určitého typu (např. .gif):

User-agent: Googlebot
Disallow: /*.gif$

Zakázání procházení celého webu, ale zobrazování reklam AdSense na příslušných stránkách zakázáním všech robotů kromě Mediapartners-Google. Při této implementaci budou stránky ve výsledcích vyhledávání skryty, ale prohledávač Mediapartners-Google je i nadále bude moci analyzovat, aby bylo možné rozhodnout, jaké reklamy se na nich mají zobrazit.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Určení pravidla pro adresy URL, které končí určitým řetězcem, pomocí znaku $. Vzorový kód například zablokuje všechny adresy URL končící příponou .xls.
User-agent: Googlebot
Disallow: /*.xls$
Pomohly vám tyto informace?
Jak bychom článek mohli vylepšit?