A robots.txt fájlról

A robots.txt használatának bemutatása

Alapvető tudnivalók a robots.txt fájlról: mi az, és hogyan kell használni?

Mi az a robots.txt fájl?

A robots.txt fájl tájékoztatja a keresőmotorok feltérképező robotjait, hogy melyek azok az oldalak és fájlok, amelyeket lekérhetnek webhelyéről, vagy melyek azok, amelyeket nem. Ez leginkább a kérések okozta túlterhelés elkerülésére szolgál; nem így kell megakadályoznia, hogy bizonyos weboldalak megjelenjenek a Google rendszerében. Ha nem szeretné, hogy valamely weboldal megjelenjen a Google rendszerében, használjon noindex direktívákat, esetleg védje jelszóval az oldalt.

Mire használható a robots.txt fájl?

A robots.txt elsősorban a feltérképező robotok forgalmának kezelésére használható, és általában – a fájltípustól függően – megakadályozhatja vele, hogy adott oldalak bekerüljenek a Google rendszerébe:

Oldaltípus Forgalomkezelés Elrejtés a Google elől Leírás
Weboldal

A weboldalak esetében (HTML, PDF és más nem médiaformátumok, amelyeket a Google értelmezni tud) a robots.txt segítségével visszaszoríthatja a feltérképező robotok által generált forgalmat, ha úgy gondolja, hogy szerverét túlságosan leterhelné a Google feltérképező robotja, vagy ha bizonyos jelentéktelen vagy ismétlődő oldalak feltérképezését el szeretné kerülni.

A robots.txt fájlt nem érdemes arra használnia, hogy elrejtse weboldalait a Google Keresés találatai közül. Ennek az az oka, hogy ha más oldalak leíró szöveggel az elrejtendő oldalra mutatnak, akkor ez az oldal feltérképezés nélkül is indexelhető. Ha nem szeretné, hogy az oldal megjelenjen a keresési találatok között, más módszert kell használnia, például jelszavas védelmet vagy noindex direktívát.

A weboldal akkor is megjelenhet a keresési találatok között, ha robots.txt fájl tiltja, de ebben az esetben a találat nem kap leírást, és valahogy így festene. A képfájlok, a videofájlok, a PDF-ek és az egyéb nem HTML-alapú fájlok nem jelennek meg. Ha weboldala ilyen találatként látható, akkor a robots.txt megfelelő (az oldalt tiltó) bejegyzésének eltávolításával megoldhatja a problémát. Ha teljesen el szeretné rejteni az oldalt a találatok közül, használjon más módszert.

Médiafájl

A robots.txt fájl segítségével kézben tarthatja a feltérképezői forgalmat, és megakadályozhatja, hogy a webhelyen tárolt képek, videók és hangfájlok megjelenjenek a Google keresési találatai között. (Fontos, hogy más oldalak és felhasználók ettől függetlenül még linkelhetnek a képekre/videókra/hangfájlokra.)

Forrásfájl

A robots.txt segítségével forrásfájlokat is letilthat (például nem fontos kép-, szkript- vagy stílusfájlokat), ha úgy gondolja, hogy hiányuk nem jelent problémát az oldalakon. Ne tiltson le forrásokat, ha nélkülük a Google feltérképező robotja nehezebben tudná értelmezni az oldalakat, mert a nehezebb értelmezés gyengébb eredményekhez vezethet.

Webtárhely-szolgáltatót használok

Ha webtárhely-szolgáltatót használ (pl. WIX, Drupal, Blogger), akkor nem biztos, hogy szükséges (vagy egyáltalán lehetséges) a robots.txt fájl közvetlen szerkesztése. Lehet, hogy a szolgáltató keresési beállításokat tartalmazó oldalon vagy más módon biztosít lehetőséget a keresőmotorok feltérképezésének szabályozására.

Ha tudni szeretné, hogy oldalát feltérképezte-e a Google, keressen az oldal URL-jére a Google Keresésben.

Ha szeretné elrejteni az oldalát a keresőmotorok elől (vagy éppen szeretné megjeleníteni), adjon hozzá (vagy távolítson el) bejelentkezési feltételt, és keressen rá arra, hogyan módosíthatja az oldalnak a keresőmotorokban való láthatóságát a tárhelyszolgáltatásában; például: wix oldal elrejtése a keresőmotorok elől.

A robots.txt lehetőségeinek korlátai

Mielőtt robots.txt fájlt készítene (vagy hozzálátna az URL-ek letiltásához), érdemes megismernie a módszer korlátait. Előfordulhat, hogy más módszereket is érdemes fontolóra vennie az URL-ek elrejtéséhez.

  • Előfordulhat, hogy a robots.txt utasításait nem támogatja minden keresőmotor
    A robots.txt fájlokban található utasítások nem kényszeríthetik a webhelyén a feltérképező robotok kívánt viselkedését, a feltérképező roboton múlik, hogy betartja-e őket. Bár a Googlebot és a többi megbízható webes robot betartja a robots.txt fájl utasításait, más feltérképező robotok figyelmen kívül hagyhatják őket. Ezért ha biztonságba szeretné helyezni adatait a webes robotok elől, használjon jobb tiltási módszert, például óvja jelszóval privát fájljait a szerverén.
  • Az egyes feltérképező robotok másként értelmezik a szintaxist
    Bár a megbízható webes robotok betartják a robots.txt fájl utasításait, egyes feltérképező robotok másként értelmezhetik a direktívákat. Fontos, hogy ismerje a különböző webes robotok felé küldött üzenetek megfelelő szintaxisát, mivel nem mindegyik érti meg az összes parancsot.
  • A kizárt oldalak továbbra is indexelhetők, ha más webhelyeken található linkek mutatnak rájuk
    Bár a Google nem térképezi fel és indexeli a robots.txt által letiltott tartalmakat, az internet más részeiről linkelt tiltott URL-eket megtalálhatjuk és indexelhetjük. Ennek eredményeképpen az URL-cím és esetlegesen egyéb nyilvánosan rendelkezésre álló információk (például az oldalra mutató linkek horgonyszövege) megjelenhetnek a Google keresési eredményeiben. Ahhoz, hogy megfelelően megakadályozhassa az URL megjelenését a Google Keresés találatai között, védje jelszóval a fájlokat a szerveren, vagy használjon noindex metacímkét vagy válaszfejlécet (illetve teljesen el is távolíthatja az oldalt).
Megjegyzés: Több feltérképezési és indexelési direktíva kombinálása esetén egyes utasítások ellentmondhatnak másoknak. A Google Developers dokumentációjának Feltérképezési és indexelési / megjelenítési direktívák kombinálása részében megtudhatja, hogyan konfigurálhatja ezeket az utasításokat megfelelően.

Oldalak robots.txt általi tiltásának ellenőrzése

Ellenőrizheti, hogy a robots.txt szabályai letiltanak-e adott oldalakat vagy forrásokat.

A noindex direktívák teszteléséhez használja az URL-ellenőrző eszközt.

Hasznosnak találta?
Hogyan fejleszthetnénk?