URL-ek letiltása a robots.txt fájllal

Információk a robots.txt fájlokról

Mi az a robots.txt fájl?

A robots.txt fájl tájékoztatja a keresőmotorok feltérképező robotjait, hogy melyek azok az oldalak és fájlok, amelyeket lekérhetnek webhelyéről, vagy melyek azok, amelyeket nem. Ez leginkább a kérések okozta túlterhelés elkerülésére szolgál; nem így kell megakadályoznia, hogy bizonyos weboldalak megjelenjenek a Google rendszerében. Ha nem szeretné, hogy valamely weboldal megjelenjen a Google rendszerében, használjon noindex címkéket vagy direktívákat, esetleg védje jelszóval az oldalt.

Mire használható a robots.txt fájl?

A robots.txt elsősorban a feltérképező robotok forgalmának kezelésére használható, de esetenként – a fájltípustól függően – megakadályozhatja vele, hogy adott oldalak bekerüljenek a Google rendszerébe:

Oldaltípus Forgalomkezelés Elrejtés a Google elől Leírás
Weboldal

A weboldalak esetében (HTML, PDF és más nem médiaformátumok, amelyeket a Google értelmezni tud) a robots.txt segítségével visszaszoríthatja a feltérképező robotok által generált forgalmat, ha úgy gondolja, hogy szerverét túlságosan leterhelné a Google feltérképező robotja, vagy ha bizonyos jelentéktelen vagy ismétlődő oldalak feltérképezését el szeretné kerülni.

A robots.txt fájlt nem érdemes arra használnia, hogy elrejtse weboldalait a Google Keresés találatai közül. Ennek az az oka, hogy ha más oldalak leíró szöveggel az elrejtendő oldalra mutatnak, akkor ez az oldal feltérképezés nélkül is indexelhető. Ha nem szeretné, hogy az oldal megjelenjen a keresési találatok között, más módszert kell használnia, például jelszavas védelmet vagy noindex direktívát.

A weboldal akkor is megjelenhet a keresési találatok között, ha robots.txt fájl tiltja, de ebben az esetben a találat nem kap leírást, és valahogy így festene. A képfájlok, a videofájlok, a PDF-ek és az egyéb nem HTML-alapú fájlok nem jelennek meg. Ha weboldala ilyen találatként látható, akkor a robots.txt megfelelő (az oldalt tiltó) bejegyzésének eltávolításával megoldhatja a problémát. Ha teljesen el szeretné rejteni az oldalt a találatok közül, használjon más módszert.

Médiafájl

A robots.txt fájl segítségével kézben tarthatja a feltérképezői forgalmat, és megakadályozhatja, hogy a webhelyen tárolt képek, videók és hangfájlok megjelenjenek a Google keresési találatai között. (Fontos, hogy más oldalak és felhasználók ettől függetlenül még linkelhetnek a képekre/videókra/hangfájlokra.)

Forrásfájl

A robots.txt segítségével forrásfájlokat is letilthat (például nem fontos kép-, szkript- vagy stílusfájlokat), ha úgy gondolja, hogy hiányuk nem jelent problémát az oldalakon. Ne tiltson le forrásokat, ha nélkülük a Google feltérképező robotja nehezebben tudná értelmezni az oldalakat, mert a nehezebb értelmezés gyengébb eredményekhez vezethet.

Webtárhely-szolgáltatót használok

Ha webtárhely-szolgáltatót használ (pl. WIX, Drupal, Blogger), akkor nem biztos, hogy szükséges (vagy egyáltalán lehetséges) a robots.txt fájl közvetlen szerkesztése. Lehet, hogy a szolgáltató webes felületen vagy más módon biztosít lehetőséget a keresőmotorok feltérképezésének szabályozására.

Ha tudni szeretné, hogy oldalát feltérképezte-e a Google, keressen az oldal URL-jére a Google Keresésben.

Ha valamelyik oldalt el szeretné rejteni (vagy láthatóvá szeretné tenni), kérjen rajta bejelentkezést (vagy távolítsa el a bejelentkezési mechanizmust), és keresse meg a Google-ban, hogy az adott webtárhelyen hogyan módosítható az oldalak keresőmotorokra vonatkozó láthatósága. Például: wix oldal elrejtése a keresőmotorok elől.

A robots.txt lehetőségeinek korlátai

Mielőtt robots.txt fájlt készítene (vagy hozzálátna az URL-ek letiltásához), érdemes megismernie a módszer korlátait. Előfordulhat, hogy más módszereket is érdemes fontolóra vennie az URL-ek elrejtéséhez.

  • A robots.txt instrukciói csak irányelvek
    A robots.txt fájl nem kényszerítheti adott viselkedésre a feltérképező robotokat a webhelyen, a benne szereplő utasítások inkább irányelvekként szolgálnak a webhelyhez hozzáférő robotok számára. Bár a Googlebot és a többi megbízható webes robot betartja a robots.txt fájl utasításait, más feltérképező robotok figyelmen kívül hagyhatják azokat. Ezért ha biztonságba szeretné helyezni adatait a webes robotok elől, használjon jobb tiltási módszert, például óvja jelszóval privát fájljait a szerverén.
  • Az egyes feltérképező robotok másként értelmezik a szintaxist
    Bár a megbízható webes robotok betartják a robots.txt fájl utasításait, egyes feltérképező robotok másként értelmezhetik a direktívákat. Fontos, hogy ismerje a különböző webes robotok felé küldött üzenetek megfelelő szintaxisát, mivel nem mindegyik érti meg az összes parancsot.
  • A kizárt oldalak továbbra is indexelhetők, ha más webhelyeken található linkek mutatnak rájuk
    Bár a Google nem térképezi fel és indexeli a robots.txt által letiltott tartalmakat, az internet más részeiről linkelt tiltott URL-eket megtalálhatjuk és indexelhetjük. Ennek eredményeképpen az URL-cím és esetlegesen egyéb nyilvánosan rendelkezésre álló információk (például az oldalra mutató linkek horgonyszövege) megjelenhetnek a Google keresési eredményeiben. Ahhoz, hogy megfelelően megakadályozhassa az URL megjelenését a Google Keresés találatai között, védje jelszóval a fájlokat a szerveren, vagy használjon noindex metacímkét vagy válaszfejlécet (illetve teljesen el is távolíthatja az oldalt).
Megjegyzés: Több feltérképezési és indexelési direktíva kombinálása esetén egyes utasítások ellentmondhatnak másoknak. A Google Developers dokumentációjának Feltérképezési és indexelési / megjelenítési direktívák kombinálása részében megtudhatja, hogyan konfigurálhatja ezeket az utasításokat megfelelően.

Oldalak robots.txt általi tiltásának ellenőrzése

Ellenőrizheti, hogy a robots.txt szabályai letiltanak-e adott oldalakat vagy forrásokat.

A noindex direktívák teszteléséhez használja az URL-ellenőrző eszközt.

Hasznos volt ez a cikk?
Hogyan fejleszthetnénk?