Blokování adres URL pomocí souboru robots.txt

Informace o souborech robots.txt

Co je to soubor robots.txt?

Soubor robots.txt prohledávačům vyhledávačů sděluje, o které stránky nebo soubory web mohou nebo nesmějí požádat. Je určen zejména k zabránění přetížení webu požadavky. Nejedná se metodu, jak webovou stránku vyloučit z Googlu. Chcete-li webovou stránku z Googlu vyloučit, použijte značky nebo direktivy noindex nebo stránku ochraňte heslem.

K čemu soubor robots.txt slouží?

Soubor robots.txt se používá především k řízení provozu prohledávačů na vašem webu a příležitostně také ke skrytí stránky z Googlu (podle typu souboru):

Typ stránky Řízení provozu Skrytí z Googlu Popis
Webová stránka

U webových stránek (HTML, PDF nebo jiné nemediální formáty, které Google dokáže přečíst) můžete pomocí souboru robots.txt spravovat procházení, pokud se domníváte, že by požadavky prohledávače Google váš server mohly přetížit, nebo chcete zabránit procházení nedůležitých stránek na vašem webu.

Soubor robots.txt nepoužívejte ke skrývání webových stránek z výsledků Vyhledávání Google. Pokud na stránku s popisným textem odkazují jiné stránky, může ji Google indexovat, aniž by ji navštívil. Chcete-li stránku zablokovat z výsledků vyhledávání, použijte jinou metodu, například ochranu heslem nebo direktivu noindex.

Pokud je stránka blokována souborem robots.txt, může se přesto zobrazit ve výsledcích vyhledávání, ale výsledek vyhledávání nebude mít popis a bude vypadat nějak takto. Obrázkové soubory, soubory videí, soubory PDF a další soubory jiného typu než HTML budou vyloučeny. Jestliže pro stránku vidíte tento výsledek vyhledávání a chcete jej opravit, odstraňte ze souboru robots.txt záznam, který stránku blokuje. Pokud stránku z vyhledávání chcete úplně odstranit, použijte jinou metodu.

Mediální soubor

Pomocí souboru robots.txt můžete spravovat provoz při procházení a také zabránit zobrazení obrázkových souborů, videosouborů a zvukových souborů ve výsledcích vyhledávání Google. (Nezabráníte tím však jiným lidem či uživatelům v tom, aby na váš obrázek, video či zvukový soubor odkazovali.)

Zdrojový soubor

Soubor robots.txt můžete použít k blokování zdrojových souborů, jako jsou nedůležité obrázky, skripty nebo soubory stylů, pokud jste přesvědčeni, že když se stránky načtou bez těchto zdrojů, nebude to na ně mít zásadní vliv. Pokud by ale při absenci těchto zdrojů bylo pro prohledávač Googlu obtížné stránce porozumět, neblokujte je. Google by nemusel správně analyzovat stránky, které jsou na nich závislé.

Používám službu hostování webů

Pokud používáte službu hostování webů, jako je například WIX, Drupal nebo Blogger, je možné, že soubor robots.txt nebudete muset (nebo moct) upravovat přímo. Poskytovatel namísto toho může nabízet nastavení stránek nebo nějaký jiný způsob, jak vyhledávačům sdělit, zda stránku mají či nemají procházet.

Chcete-li zjistit, zda Google stránku prošel, vyhledejte na Googlu její adresu URL.

Chcete-li stránku skrýt (nebo její skrytí zrušit), přidejte (nebo odstraňte) u ní požadavky na přihlášení a vyhledejte na Googlu pokyny k tomu, jak u vašeho hostitele změnit viditelnost stránky ve vyhledávačích. Příklad: skrytí stránky z vyhledávačů ve službě Wix.

Vysvětlení omezeného použití souborů robots.txt

Před vytvořením nebo úpravou souboru robots.txt byste se měli seznámit s omezeními této metody blokování adres URL. Někdy může být vhodné zvážit další mechanismy, aby bylo zajištěno, že vaše adresy URL na internetu nebude možné najít.

  • Instrukce v souboru robots.txt jsou jen pokyny
    Instrukce v souborech robots.txt nemohou vynutit chování prohledávače na vašem webu. Jedná se pouze o pokyny pro prohledávače, které váš web navštíví. Zatímco Googlebot a další důvěryhodné prohledávače se pokyny v souboru robots.txt řídí, některé prohledávače je mohou ignorovat. Pokud proto chcete své informace před prohledávači ochránit, doporučujeme použít jiné metody, například chránit soukromé soubory na serveru heslem.
  • Různé prohledávače si syntaxi vykládají po svém
    Ačkoli se důvěryhodné prohledávače pokyny v souboru robots.txt řídí, každý z nich se je může vyložit po svém. Je potřeba znát správnou syntaxi pro různé prohledávače, protože některé z nich určitým pokynům nemusejí rozumět.
  • Pokud na stránku odkazují jiné weby, může být indexována i přesto, že je její procházení blokováno souborem robots.txt
    Google nebude procházet ani indexovat obsah blokovaný souborem robots.txt. Pokud však někdo jinde na internetu odkazuje na zablokovanou adresu URL, můžeme ji přesto najít a indexovat. V důsledku toho se daná adresa (a případně také další veřejně dostupné informace, například text odkazů na ni) může ve výsledcích Vyhledávání Google i přesto objevit. Chcete-li zobrazování některé své adresy URL ve výsledcích Vyhledávání Google řádně zabránit, měli byste soubory na serveru ochránit heslem nebo použít metaznačku nebo záhlaví odpovědi noindex (případně stránku zcela odstranit).
Poznámka: Když zkombinujete několik pokynů ohledně procházení a indexování, může dojít k tomu, že některé instrukce budou v rozporu s jinými. Přečtěte si, jak pokyny správně nakonfigurovat, v sekci o kombinování pokynů ohledně procházení, indexování a zobrazování v dokumentaci na webu Google Developers.

Testování blokování stránky pomocí souboru robots.txt

Můžete vyzkoušet, zda je stránka nebo zdroj blokován pravidlem v souboru robots.txt.

Chcete-li otestovat výskyt direktiv noindex, použijte nástroj Kontrola adresy URL.

Pomohl vám tento článek?
Jak bychom článek mohli vylepšit?