A robots.txt fájlról
Robots.txt fájl létrehozása
Kezdő lépések
A robots.txt fájl helye a webhely gyökérkönyvtárában van. A www.example.com webhely esetében tehát a www.example.com/robots.txt útvonalon található. A robots.txt egyszerű szöveges fájl, amelynek tartalma a robotkizárási szabványt követi. A robots.txt fájl egy vagy több szabályból áll. Minden egyes szabály letiltja (vagy engedélyezi) a hozzáférést a webhely megadott fájljának útvonalához az adott feltérképező robot számára.
Példa egyszerű, két szabállyal rendelkező robots.txt fájlra (magyarázat alább):
# Group 1 User-agent: Googlebot Disallow: /nogooglebot/ # Group 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml
Magyarázat:
- A „Googlebot” nevű feltérképező robot – mint felhasználói ügynök – számára tiltott a
http://example.com/nogooglebot/
mappa és a hozzá tartozó alkönyvtárak feltérképezése. - Bármely másik felhasználói ügynök hozzáférhet a teljes webhelyhez. (Ez a rész kihagyható lett volna ugyanezzel az eredménnyel, mivel alapértelmezés szerint teljes hozzáférést biztosít a rendszer.)
- A webhely webhelytérképfájlja a http://www.example.com/sitemap.xml címen található meg.
Később részletesebb példát is bemutatunk.
Alapvető útmutatás a robots.txt-hez
Íme néhány alapvető útmutatás a robots.txt fájlokkal kapcsolatban. Javasoljuk, hogy olvassa el a robots.txt fájlok szintaxisának teljes leírását, mert fontos, hogy a fájl működésének apróbb részleteit is megértse.
Formátum és hely
A robots.txt fájlt szinte bármelyik szövegszerkesztő programmal létrehozhatja. A programnak képesnek kell lennie szabványos UTF-8 kódolású szövegfájlok létrehozására. Ne használjon dokumentumszerkesztő szoftvert, ezek ugyanis gyakran a saját formátumukban mentik el a fájlokat, és nem várt karaktereket – például nyomdai idézőjeleket – adhatnak a szöveghez, ami problémát okozhat a feltérképező robotoknak.
Formátumra és helyre vonatkozó szabályok:
- A fájlnak a robots.txt névvel kell rendelkeznie.
- Webhelyén csak egy robots.txt fájl lehet.
- A robots.txt fájlnak azon webhely tárhelyének a gyökérkönyvtárában kell lennie, amelyre vonatkozik. Ha például a
http://www.example.com/
alá tartozó összes URL feltérképezését szeretné szabályozni, a robots.txt fájl útvonalának a következőnek kell lennie:http://www.example.com/robots.txt
. A fájl nem helyezhető alkönyvtárba (pl.http://example.com/pages/robots.txt
). Ha nem tudja, hogyan férhet hozzá a webhely gyökérkönyvtárához, vagy ha a hozzáféréshez engedély szükséges, forduljon webtárhely-szolgáltatójához. Ha nincs hozzáférése a webhely gyökérkönyvtárához, használjon más módszert a letiltáshoz, például metacímkéket. - A robots.txt fájl vonatkozhat aldomainekre (pl.
http://website.example.com/robots.txt
), illetve nem hagyományos portokra (pl.http://example.com:8181/robots.txt
). - A megjegyzések a # jelölés után lévő tartalmak.
Szintaxis
- A robots.txt fájlnak UTF-8 kódolású szöveges fájlnak kell lennie (ez tartalmazza az ASCII-t). Egyéb karakterkészletek használata nem lehetséges.
- A robots.txt fájl egy vagy több csoportból áll.
- Minden csoport több szabályból vagy direktívából (utasításból) áll, minden sorban egy direktíva szerepel.
- A csoportok a következő információkat hordozzák:
- Kire vonatkozik a csoport? (a felhasználói ügynök)
- Mely mappákhoz vagy fájlokhoz férhet hozzá ez az ügynök?
- És/vagy mely mappákhoz vagy fájlokhoz nem férhet hozzá az ügynök?
- A csoportok feldolgozása fentről lefelé történik, és minden felhasználói ügynökhöz csak egyetlen szabálykészlet tartozhat, amely minden esetben az első legpontosabb meghatározást adó szabály.
- Az alapértelmezett feltételezés szerint a felhasználói ügynökök feltérképezhetik a
Disallow:
szabály által nem tiltott oldalakat és könyvtárakat. - A szabályok megkülönböztetik a kis- és nagybetűket. Például a
Disallow: /file.asp
vonatkozik ahttp://www.example.com/file.asp
fájlra, ahttp://www.example.com/File.asp
fájlra azonban nem.
A robots.txt fájlokban a következő direktívák használhatók:
User-agent
: [Kötelező, csoportonként legalább egy] Azon keresőmotor robotjának (internetes feltérképező szoftverének) a neve, amelyre a szabály vonatkozik. Minden szabálynak ez az első sora. A legtöbb Google felhasználói ügynök megtalálható a Web Robots Database listán, illetve a Google által a felhasználói ügynökökről összeállított listán is. Támogatja a „*” helyettesítő karaktert az útvonalak előtagjában, utótagjában, illetve a teljes karakterlánc helyén. Ha csillagot (*
) használ a lenti példában látható módon, minden feltérképező robotra érvényes lesz a különböző AdsBot feltérképező robotok kivételével, amelyeket kifejezetten meg kell nevezni. (Lásd a Google feltérképező robotok neveit tartalmazó listát.) Példák:# 1. példa: Csak a Googlebot letiltása User-agent: Googlebot Disallow: / # 2. példa: A Googlebot és az AdsBot letiltása User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # 3. példa: Mindenki letiltása, kivéve az AdsBot feltérképezőket User-agent: * Disallow: /
Disallow:
[Legalább egy Disallow vagy Allow bejegyzés szabályonként] Az a gyökérdomain alá tartozó könyvtár vagy oldal, amelyet a felhasználói ügynök nem térképezhet fel. Ha oldalról van szó, akkor az oldal teljes neve kell, hogy legyen (ahogy a böngészőben látható), ha pedig könyvtárról, akkor a karakterláncnak a „/” karakterrel kell végződnie. Támogatja a „*” helyettesítő karaktert az útvonalak előtagjában, utótagjában, illetve a teljes karakterlánc helyén.Allow:
[Legalább egy Disallow vagy Allow bejegyzés szabályonként] Az a gyökérdomain alá tartozó könyvtár vagy oldal, amelyet a fent említett felhasználói ügynök feltérképezhet. Ez a Disallow utasítás felülbírálására szolgál, ugyanis engedélyezi a nem engedélyezett könyvtárban lévő alkönyvtár vagy oldal feltérképezését. Ha oldalról van szó, akkor az oldal teljes neve kell, hogy legyen (ahogy a böngészőben látható), ha pedig könyvtárról, akkor a karakterláncnak a „/” karakterrel kell végződnie. Támogatja a „*” helyettesítő karaktert az útvonalak előtagjában, utótagjában, illetve a teljes karakterlánc helyén.Sitemap:
[Nem kötelező, fájlonként nulla vagy több] A webhelyhez tartozó webhelytérkép helye. Teljes egészében megadott URL-nek kell lennie; a Google nem feltételez és nem keres http, https, www és www nélküli formátumú alternatívákat. A feltérképezést engedélyező és tiltó utasításokkal szemben a webhelytérképekkel azt jelezheti, hogy a Google-nak miket kellene feltérképeznie. További információ a webhelytérképekről. Például:Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml
A további szabályokat figyelmen kívül hagyja a rendszer.
További példafájl
A robots.txt fájl egy vagy több csoportot tartalmaz, amelyek mindegyike a User-agent
sorral kezdődik – ez a sor határozza meg, hogy mit céloznak a csoportok. Példa két csoporttal rendelkező fájlra; a szövegközi megjegyzések az egyes szabályok magyarázatai:
# A következők tiltása a Googlebot számára: example.com/directory1/… és example.com/directory2/… # de hozzáférés engedélyezése a következőhöz: directory2/subdirectory1/… # A webhely összes többi könyvtára alapértelmezés szerint engedélyezett. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # A teljes webhely letiltása az anothercrawler feltérképező robottól. User-agent: anothercrawler Disallow: /
A robots.txt teljes szintaxisa
A robots.txt teljes szintaxisa itt található. Olvassa el a teljes dokumentációt, a robots.txt szintaxisa ugyanis rendelkezik néhány trükkös résszel, amelyekkel fontos tisztában lennie.
Hasznos robots.txt-szabályok
Néhány hasznos és gyakori robots.txt-szabály:
Szabály | Minta |
---|---|
A teljes webhely feltérképezésének letiltása. Ne feledje, hogy bizonyos helyzetekben a webhely URL-jeinek indexelése annak ellenére is megtörténhet, hogy a feltérképezésükre nem került sor. Megjegyzés: Ez nem vonatkozik a különböző AdsBot feltérképező robotokra, amelyeket kifejezetten meg kell nevezni. |
User-agent: * Disallow: / |
Adott könyvtár és a benne szereplő tartalmak tiltása előre dőlő törtvonal szerepeltetésével a könyvtár neve után. A privát tartalmak elérésének korlátozására ne a robots.txt fájlt használja, hanem a megfelelő hitelesítési módszert. A robots.txt fájl által letiltott URL-ek indexelése a feltérképezésük nélkül is megtörténhet, és mivel a robots.txt fájlt bárki megtekintheti, kiderülhet belőle a privát tartalom helye a szerveren. |
User-agent: * Disallow: /calendar/ Disallow: /junk/ |
Hozzáférés engedélyezése egyetlen feltérképező robotnak |
User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Hozzáférés engedélyezése egy kivételével az összes feltérképező robotnak |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Egyetlen weboldal feltérképezésének tiltása az oldal törtvonal után való megadásával: |
User-agent: * Disallow: /private_file.html |
Adott kép tiltása a Google Képkereső találatai közül: |
User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
A webhelyen található összes kép letiltása a Google Képkereső találatai közül: |
User-agent: Googlebot-Image Disallow: / |
Bizonyos fájltípusú fájlok feltérképezésének letiltása (például |
User-agent: Googlebot Disallow: /*.gif$ |
A teljes webhely feltérképezésének letiltása, de az AdSense-hirdetések megjelenítésének engedélyezése az oldalakon; a Mediapartners-Google webes robot kivételével mindegyiknek a letiltása. Ez a megvalósítás elrejti az oldalakat a keresési eredményekből, de a Mediapartners-Google webes robot továbbra is tudja elemezni őket, hogy eldöntse, milyen hirdetéseket jelenítsen meg a webhely látogatóinak. |
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Adott karakterláncra végződő URL-ek egyeztetéséhez használja a $ karaktert. A mintakód az összes .xls végű URL-t letiltja: |
User-agent: Googlebot Disallow: /*.xls$ |