Oldalak letiltása vagy eltávolítása a robots.txt fájl segítségével

A robots.txt fájl létrehozása eszköz megszűnik. A robots.txt fájlt létrehozhatja kézzel, illetve használhatja az interneten fellelhető, a robots.txt fájl generálására szolgáló számos eszköz valamelyikét.

A robots.txt fájl korlátozza a webhelyéhez való hozzáférést az internetet feltérképező keresőrobotok számára. A keresőrobotok automatizált eszközök, és mielőtt hozzáférnének egy webhely oldalaihoz, ellenőrzik a robots.txt fájl jelenlétét, amely megakadályozza őket abban, hogy megnyissanak bizonyos oldalakat. (Annak ellenére, hogy minden helyesen viselkedő robot betartja a robots.txt fájl utasításait, különböző robotok különbözőképpen értelmezhetik azokat. A robots.txt fájl tiszteletben tartását ugyanakkor nem lehet ellenőrizni, így egyes spammelők vagy más rosszakarók figyelmen kívül hagyhatják azt. Ezért azt javasoljuk, hogy a bizalmas információkat jelszóval védje.)

Ha szeretné megtekinteni, hogy mely URL-eknél tiltotta le a Google a feltérképezést, keresse fel a Letiltott URL-ek oldalt a Google Webmestereszközök Feltérképez paneljén.

Önnek csak akkor van szüksége a robots.txt fájl használatára, ha nem szeretné, hogy a keresőmotorok a webhelyén megjelenő bizonyos tartalmat feltérképezzenek. Ha azt szeretné, hogy a keresőmotorok a webhelye teljes tartalmát felvegyék az indexbe, akkor nem kell megadnia robots.txt fájlt (még üres fájlt sem).

Habár a Google nem térképezi fel és nem indexeli a robots.txt fájlban blokkolt oldalak tartalmát, az URL-címeket továbbra is indexelhetjük, ha más internetes oldalakon találjuk meg őket. Ennek eredményeképpen az oldal URL-címe, és esetleg más nyilvánosan elérhető információk, például a webhelyre mutató linkek utalószövege, vagy az Open Directory Projectben (www.dmoz.org) szereplő cím megjelenhetnek a Google keresési eredményeiben.

Annak érdekében, hogy használhassa a robots.txt fájlt, hozzáféréssel kell rendelkeznie a domain gyökérkönyvtárához (ha nem biztos a dolgában, érdeklődjön a webes szolgáltatónál). Amennyiben nincs hozzáférési jogosultsága a domain gyökérkönyvtárához, a ROBOTS metacímke segítségével korlátozhatja a keresőrobot hozzáférését.

Ha teljes körűen -- és még akkor is, ha más oldalak hivatkoznak rá -- meg szeretné akadályozni, hogy az adott oldal tartalma bekerüljön a Google internetes indexébe, használja a noindex metacímkét vagy az x-robots-tag címkét. Ha a Googlebot eljut erre az oldalra, észleli a noindex metacímkét, és megakadályozza, hogy az oldal bekerüljön a webindexbe. Az x-robots-tag HTTP-fejléc különösen akkor hasznos, ha korlátozni szeretné a nem HTML-fájlok, így a képek vagy más dokumentumfajták indexelését.

Robots.txt fájl létrehozása

A legegyszerűbb robots.txt fájlban két szabály található:

  • User-agent: a keresőrobot, amelyre az alábbi szabály vonatkozik
  • Disallow: a blokkolni kívánt oldalak

Ez a két sor a fájl egy bejegyzésének számít. Tetszőleges számú bejegyzés adható meg. Egy bejegyzésben több Disallow és több User-agent sor szerepelhet.

A robots.txt fájl minden szakasza különálló, és nem az előző szakaszokra épül. Például:


User-agent: *

Disallow: /mappa1/

User-Agent: Googlebot

Disallow: /mappa2/

Ebben a példában csak a /mappa2/ tartalmú URL-eket tiltja le a Googlebot elől.

User-agentek és botok

A user-agent egy konkrét keresőmotor robotja. A Web Robots Database adatbázisban megtalálhatók a leggyakrabban használt robotok. Megadható olyan bejegyzés (a név felsorolásával), amely egy bizonyos keresőrobotra vonatkozik, és olyan bejegyzés is, amely az összes keresőrobotra érvényes (csillag jel alkalmazásával). Az alábbiak szerint lehet megadni egy összes keresőrobotra vonatkozó bejegyzést:

User-agent: *

A Google több keresőrobotot (user-agentet) használ. Internetes keresési szolgáltatásunkat a Googlebot keresőrobottal végezzük. A többi keresőrobotunk – például a Googlebot-Mobile és a Googlebot-Image – a Googlebot keresőrobotra vonatkozó szabályokat követi, de az egyes keresőrobotokhoz is adhatók meg szabályok.

User-agentek blokkolása

A Disallow sorban kell felsorolni a blokkolni kívánt oldalakat. Megadhat pontos URL-címet vagy egy mintát is. A bejegyzést per jellel kell kezdeni (/).

  • Ha a teljes webhelyet szeretné blokkolni, egy előre dőlő per jelet írjon be.
    Disallow: /
  • Ha egy könyvtárat és annak teljes tartalmát szeretné blokkolni, tegyen előre dőlő per jelet a könyvtár neve után.
    Disallow: /szemetes-mappa/
  • Ha egy oldalt szeretne blokkolni, írja be az oldalt.
    Disallow: /sajat_fajl.html
  • Ha egy képet szeretne eltávolítani a Google Képkeresőből, írja be a következőt:
    User-agent: Googlebot-Image
    
    Disallow: /kepek/kutyak.jpg 
  • Ha a webhelyén található összes képet el szeretné távolítani a Google Képkeresőből:
    User-agent: Googlebot-Image
    
    Disallow: / 
  • Ha bizonyos típusú fájlokat (például .gif) kíván törölni, a következőt kell használnia:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Ha nem szeretné, hogy webhelyét feltérképezzük, ám AdSense hirdetéseket szeretne megjeleníteni oldalain, akkor tiltsa le az összes robotot a Mediapartners-Google roboton kívül. Így ezek az oldalak kimaradnak a keresési találatokból, azonban a Mediapartners-Google keresőrobot elemezheti az oldalakat a megjelenítendő hirdetések meghatározása érdekében. A Mediapartners-Google keresőrobot nem osztja meg az oldalakat a többi Google user-agenttel. Például:
    User-agent: *
    Disallow: /
    
    User-agent: Mediapartners-Google
    Allow: /

Figyeljen arra, hogy a direktívák kis-/nagybetűérzékenyek. Például a Disallow: /junk_file.asp letiltja a http://www.example.com/junk_file.asp fájlt, de engedélyezi a http://www.example.com/Junk_file.asp fájlt. A Googlebot figyelmen kívül hagyja a robots.txt fájlban szereplő szóközöket (főként az üres sorokat) és az ismeretlen parancsokat.

A Googlebot támogatja a webhelytérképfájloknak a robots.txt fájlon keresztül történő küldését.

Mintaegyezés

A Googlebot (egyes keresőrobotokkal ellentétben) képes értelmezni bizonyos mintaegyezéseket.

  • Ha karaktersorral való egyezést szeretne megadni, használja a csillag (*) karaktert. Ha például blokkolni kívánja a hozzáférést az összes olyan alkönyvtárhoz, amelynek a neve a "magan" szóval kezdődik:
    User-agent: Googlebot
    Disallow: /magan*/
  • Amennyiben az összes olyan URL-címhez való hozzáférést szeretné blokkolni, amelyben kérdőjel (?) szerepel: (még pontosabban azokat az URL-címeket, amelyek az Ön domainnevével kezdődnek, majd utána egy karakterlánc, egy kérdőjel, azután pedig ismételten egy karakterlánc szerepel):
    User-agent: Googlebot
    Disallow: /*?
  • A $ karakter használatával az URL-cím végével való egyezést adhatja meg. Amennyiben blokkolni szeretne minden ".xls" végződésű URL-t:
    User-agent: Googlebot
     
    Disallow: /*.xls$

    Ezt a mintaegyezési módot az Allow paranccsal együtt használhatja. Ha például egy ? munkamenet-azonosítót jelöl, akkor kizárhatja azokat az URL-címeket, amelyekben kérdőjel szerepel annak érdekében, hogy a Googlebot ne térképezzen fel ismétlődő oldalakat. Az URL-címek végén szereplő kérdőjel azonban annak az oldalnak a verzióját is jelölheti, amelyet szerepeltetni kíván az indexben. Ilyenkor a következők szerint állíthatja be robots.txt fájlját:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    A Disallow: / *? parancs letiltja azokat az URL-eket, amelyek kérdőjelet tartalmaznak (még pontosabban azokat az URL-címeket blokkolja, amelyek az Ön domainnevével kezdődnek, majd utána egy karakterlánc, egy kérdőjel, azután pedig ismételten egy karakterlánc szerepel).

    Az Allow: /*?$ parancs engedélyez minden olyan URL-t, amely kérdőjelre végződik (még pontosabban azokat az URL-címeket engedélyezi, amelyek az Ön domainnevével kezdődnek, amely után egy karakterlánc, majd egy kérdőjel szerepel, és a kérdőjel után nem áll semmilyen karakter).

Mentse a robots.txt fájlt: ehhez töltse le magát a fájlt, vagy pedig másolja a fájl tartalmát egy szövegfájlba, amelyet aztán robots.txt néven mentsen el. Mentse a fájlt webhelye legfelső szintű könyvtárába. A robots.txt fájlt a domain gyökerében kell elhelyezni "robots.txt" néven. Az alkönyvtárban tárolt robots.txt fájl nem érvényes, mivel a keresőrobotok kizárólag a domain gyökerében keresik ezt a fájlt. Például a http://www.example.com/robots.txt érvényes hely, ám a http://www.example.com/sajatwebhely/robots.txt nem érvényes.

A robots.txt fájl tesztelése

A robots.txt tesztelése eszköz segítségével megállapíthatja, hogy a robots.txt fájl nem akadályozza-e véletlenül a Googlebotot a webhely egy bizonyos fájljának vagy könyvtárának elérésében, vagy megengedi-e, hogy a Googlebot feltérképezze azokat a fájlokat, amelyek nem jelenhetnek meg az interneten. Amikor beírja egy javasolt robots.txt fájl szövegét, az eszköz ugyanúgy olvassa be azt, mint a Googlebot, és kiírja annak befolyásoló hatásait és az esetleges problémákat.

A webhely robots.txt fájljának tesztelése:

  1. A Webmestereszközök kezdőlapján kattintson a kívánt webhelyre.
  2. A Feltérképezés alatt kattintson a Letiltott URL-ek lehetőségre.
  3. Ha még nem választotta ki, kattintson a Robots.txt tesztelése lapra.
  4. Másolja ki a robots.txt fájl tartalmát, majd másolja be az első mezőbe.
  5. Az URL-ek mezőbe írja be a tesztelendő webhelyet.
  6. A User-agentek listából válassza ki a kívánt user-agenteket.

Az ebben az eszközben végrehajtott változtatások nem kerülnek mentésre. A változtatások mentéséhez be kell másolnia a mező tartalmát a robots.txt fájlba.

Az eszköz által szolgáltatott találatokat csak a Google user-agentek (például a Googlebot) tudják felhasználni. Más robotok eltérő módon értelmezhetik a robots.txt fájlt. A Googlebot például a standard robots.txt protokoll kibővített verzióját használja. Érti az Allow: utasításokat és egyes mintaegyezéseket is. Így ha az eszköz az ilyen bővítményeket tartalmazó sorokat értelmezhetőnek mutatja, ne feledje, hogy ez csak a Googlebotra vonatkozik, a webhelyet feltérképező más robotokra nem feltétlenül.