URL-ek letiltása a robots.txt fájllal

Robots.txt fájl létrehozása

Ha webtárhely-szolgáltatót használ (pl. Wix, Blogger), akkor nem biztos, hogy törődnie kell a robots.txt fájllal.

Kezdő lépések

A robots.txt fájl helye a webhely gyökérkönyvtárában van. A www.example.com webhely esetében tehát a www.example.com/robots.txt útvonalon található. A robots.txt egyszerű szöveges fájl, amelynek tartalma a robotkizárási szabványt követi. A robots.txt fájl egy vagy több szabályból áll. Minden egyes szabály letiltja (vagy engedélyezi) a hozzáférést a webhely megadott fájljának útvonalához az adott feltérképező robot számára.

Példa egyszerű, két szabállyal rendelkező robots.txt fájlra (magyarázat lentebb):

# 1. szabály
User-agent: Googlebot
Disallow: /nogooglebot/

# 2. szabály
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Magyarázat:

  1. A „Googlebot” nevű feltérképező robot – mint felhasználói ügynök – számára tiltott a http://example.com/nogooglebot/ mappa és a hozzá tartozó alkönyvtárak feltérképezése.
  2. Bármely másik felhasználói ügynök hozzáférhet a teljes webhelyhez. (Ez a rész kihagyható lett volna ugyanezzel az eredménnyel, mivel alapértelmezés szerint teljes hozzáférést biztosít a rendszer.)
  3. A webhely webhelytérképfájlja a http://www.example.com/sitemap.xml címen található meg.

Később részletesebb példát is bemutatunk.

Alapvető útmutatás a robots.txt-hez

Íme néhány alapvető útmutatás a robots.txt fájlokkal kapcsolatban. Javasoljuk, hogy olvassa el a robots.txt fájlok szintaxisának teljes leírását, mert fontos, hogy a fájl működésének apróbb részleteit is megértse.

Formátum és hely

A robots.txt fájlt szinte bármelyik szövegszerkesztő programmal létrehozhatja. A programnak képesnek kell lennie ASCII vagy UTF-8 kódolású normál szövegfájlok létrehozására. Ne használjon dokumentumszerkesztő szoftvert (ezek ugyanis gyakran a saját formátumukban mentik el a fájlokat, és nem várt karaktereket – például nyomdai idézőjeleket – adhatnak a szöveghez, ami problémát okozhat a feltérképező robotoknak).

A webhelyéhez tartozó robots.txt fájlokat a robots.txt tesztelő eszközzel is írhatja, szerkesztheti. Az eszköz segítségével tesztelheti webhelyén a fájl szintaxisát és a szabályok viselkedését.

Formátumra és helyre vonatkozó szabályok:

  • A fájlnak a robots.txt névvel kell rendelkeznie.
  • Webhelyén csak egy robots.txt fájl lehet.
  • A robots.txt fájlnak azon webhely tárhelyének a gyökérkönyvtárában kell lennie, amelyre vonatkozik. Ha például a http://www.example.com/ alá tartozó összes URL feltérképezését szeretné szabályozni, a robots.txt fájl útvonalának a következőnek kell lennie: http://www.example.com/robots.txt. A fájl nem helyezhető alkönyvtárba (pl. http://example.com/pages/robots.txt). Ha nem tudja, hogyan férhet hozzá a webhely gyökérkönyvtárához, vagy ha a hozzáféréshez engedély szükséges, forduljon webtárhely-szolgáltatójához. Ha nincs hozzáférése a webhely gyökérkönyvtárához, használjon más módszert a letiltáshoz, például metacímkéket.
  • A robots.txt fájl vonatkozhat aldomainekre (pl. http://website.example.com/robots.txt), illetve nem hagyományos portokra (pl. http://example.com:8181/robots.txt).
  • Megjegyzés minden olyan sor, amely # karakterrel kezdődik 

Szintaxis

  • A robots.txt fájlnak ASCII vagy UTF-8 kódolású szöveges fájlnak kell lennie. Más karakterek nem használhatók.
  • A robots.txt fájl egy vagy több szabályból áll.
  • Minden szabály több direktívából (utasításból) áll, minden sorban egy direktíva szerepel.
  • A szabályok a következő információkat hordozzák:
    • Kire vonatkozik a szabály? (felhasználói ügynök)
    • Mely mappákhoz vagy fájlokhoz férhet hozzá ez az ügynök?
    • Vagy pedig mely mappákhoz vagy fájlokhoz nem férhet hozzá az ügynök?
  • A szabályok feldolgozása fentről lefelé történik, és minden felhasználói ügynökhöz csak egyetlen szabálykészlet tartozhat, amely minden esetben az első legpontosabb meghatározást adó szabály.
  • Az alapértelmezett feltételezés szerint a felhasználói ügynökök feltérképezhetik a Disallow: szabály által nem tiltott oldalakat és könyvtárakat.
  • A szabályok megkülönböztetik a kis- és nagybetűket. Például a Disallow: /file.asp vonatkozik a http://www.example.com/file.asp fájlra, a http://www.example.com/File.asp fájlra azonban nem.

A robots.txt fájlokban a következő direktívák használhatók:

  • User-agent: [Kötelező, szabályonként legalább egy] Azon keresőmotor robotjának (internetes feltérképező szoftverének) a neve, amelyre a szabály vonatkozik. Minden szabálynak ez az első sora. A legtöbb felhasználói ügynök megtalálható a Web Robots Database listán, illetve a Google által a felhasználói ügynökökről összeállított listán is. Támogatja a „*” helyettesítő karaktert az útvonalak előtagjában, utótagjában, illetve a teljes karakterlánc helyén. Ha csillagot (*) használ a lenti példában látható módon, minden feltérképező robotra érvényes lesz a különböző AdsBot feltérképező robotok kivételével, amelyeket kifejezetten meg kell nevezni. (Lásd a Google feltérképező robotok neveit tartalmazó listát.) Példák:
    # 1. példa: Csak a Googlebot letiltása
    User-agent: Googlebot
    Disallow: /
    
    # 2. példa: A Googlebot és az AdsBot letiltása
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # 3. példa: Mindenki letiltása, kivéve az AdsBot feltérképezőket
    User-agent: * 
    Disallow: /
  • Disallow: [Legalább egy Disallow vagy Allow bejegyzés szabályonként] Az a gyökérdomain alá tartozó könyvtár vagy oldal, amelyet a felhasználói ügynök nem térképezhet fel. Ha oldalról van szó, akkor az oldal teljes neve kell, hogy legyen (ahogy a böngészőben látható), ha pedig könyvtárról, akkor a karakterláncnak a „/” karakterrel kell végződnie.  Támogatja a „*” helyettesítő karaktert az útvonalak előtagjában, utótagjában, illetve a teljes karakterlánc helyén.
  • Allow: [Legalább egy Disallow vagy Allow bejegyzés szabályonként] Az a gyökérdomain alá tartozó könyvtár vagy oldal, amelyet a fent említett felhasználói ügynök feltérképezhet. Ez a Disallow utasítás felülbírálására szolgál, ugyanis engedélyezi a nem engedélyezett könyvtárban lévő alkönyvtár vagy oldal feltérképezését. Ha oldalról van szó, akkor az oldal teljes neve kell, hogy legyen (ahogy a böngészőben látható), ha pedig könyvtárról, akkor a karakterláncnak a „/” karakterrel kell végződnie. Támogatja a „*” helyettesítő karaktert az útvonalak előtagjában, utótagjában, illetve a teljes karakterlánc helyén.
  • Sitemap: [Nem kötelező, fájlonként nulla vagy több] A webhelyhez tartozó webhelytérkép helye. Teljes egészében megadott URL-nek kell lennie; a Google nem feltételez és nem keres http, https, www és www nélküli formátumú alternatívákat. A feltérképezést engedélyező és tiltó utasításokkal szemben a webhelytérképekkel azt jelezheti, hogy a Google-nak miket kellene feltérképeznie. További információ a webhelytérképekről. Például:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

A robotok figyelmen kívül hagyják az ismeretlen kulcsszavakat.

További példafájl

A robots.txt fájl egy vagy több szabályblokkot tartalmaz, amelyek mindegyike a User-agent sorral kezdődik – ez a sor határozza meg, hogy mit céloznak a szabályok. Példa két szabállyal rendelkező fájlra; a szövegközi megjegyzések az egyes szabályok magyarázatai:

# A következők tiltása a Googlebot számára: example.com/directory1/… és example.com/directory2/…
# de hozzáférés engedélyezése a következőhöz: directory2/subdirectory1/…
# A webhely összes többi könyvtára alapértelmezés szerint engedélyezett.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# A teljes webhely letiltása az anothercrawler feltérképező robottól.
User-agent: anothercrawler
Disallow: /

A robots.txt teljes szintaxisa

A robots.txt teljes szintaxisa itt található. Olvassa el a teljes dokumentációt, a robots.txt szintaxisa ugyanis rendelkezik néhány trükkös résszel, amelyekkel fontos tisztában lennie.

Hasznos robots.txt-szabályok

Néhány hasznos és gyakori robots.txt-szabály:

Szabály Minta
A teljes webhely feltérképezésének letiltása. Ne feledje, hogy bizonyos helyzetekben a webhely URL-jeinek indexelése annak ellenére is megtörténhet, hogy a feltérképezésükre nem került sor. Megjegyzés: Ez nem vonatkozik a különböző AdsBot feltérképező robotokra, amelyeket kifejezetten meg kell nevezni.
User-agent: *
Disallow: /
Adott könyvtár és a benne szereplő tartalmak tiltása előre dőlő törtvonal szerepeltetésével a könyvtár neve után. A privát tartalmak elérésének korlátozására ne a robots.txt fájlt használja, hanem a megfelelő hitelesítési módszert. A robots.txt fájl által letiltott URL-ek indexelése a feltérképezésük nélkül is megtörténhet, és mivel a robots.txt fájlt bárki megtekintheti, kiderülhet belőle a privát tartalom helye a szerveren.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Hozzáférés engedélyezése egyetlen feltérképező robotnak
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Hozzáférés engedélyezése egy kivételével az összes feltérképező robotnak
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Egyetlen weboldal feltérképezésének tiltása az oldal törtvonal után való megadásával:

Disallow: /private_file.html

Adott kép tiltása a Google Képkereső találatai közül:

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

A webhelyen található összes kép letiltása a Google Képkereső találatai közül:

User-agent: Googlebot-Image
Disallow: /

Bizonyos fájltípusú fájlok feltérképezésének letiltása (például .gif):

User-agent: Googlebot
Disallow: /*.gif$

A teljes webhely feltérképezésének letiltása, de az AdSense-hirdetések megjelenítésének engedélyezése az oldalakon; a Mediapartners-Google webes robot kivételével mindegyiknek a letiltása. Ez a megvalósítás elrejti az oldalakat a keresési eredményekből, de a Mediapartners-Google webes robot továbbra is tudja elemezni őket, hogy eldöntse, milyen hirdetéseket jelenítsen meg a webhely látogatóinak.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Adott karakterláncra végződő URL-ek egyeztetéséhez használja a $ karaktert. A mintakód az összes .xls végű URL-t letiltja:
User-agent: Googlebot
Disallow: /*.xls$
Hasznos volt ez a cikk?
Hogyan fejleszthetnénk?