A robots.txt fájlról

Robotokkal kapcsolatos GYIK

Általános kérdések a robotokról

A robots.txt fájllal kapcsolatos kérdések

A robots metacímkével kapcsolatos kérdések

Az X-Robots-Tag HTTP-fejléccel kapcsolatos kérdések

Kimaradt valami a GYIK-ből? Ha további segítségre van szüksége, tegye fel kérdését bátran a Webmester Súgófórumon!

Általános kérdések a robotokról

Szüksége van a webhelyemnek robots.txt fájlra?

Nem. Amikor a Googlebot felkeres egy webhelyet, először engedélyt kérünk a feltérképezésre a robots.txt fájl lekérésének megkísérlésével. A robots.txt fájllal, robots metacímkékkel vagy X-Robots-Tag HTTP-fejlécekkel nem rendelkező webhelyeket teljes körűen feltérképezzük, és normál módon indexeljük.

Melyik módszert használjam?

Attól függ. Röviden összefoglalva bármelyik módszer használatára vannak jó indokok:

  1. robots.txt: Akkor használja, ha a tartalom feltérképezése problémákat okoz a szerverén. Például olyankor, amikor meg szeretné akadályozni a végtelen naptárszkriptek feltérképezését. Ne használja a robots.txt fájlt a privát tartalmak letiltására (használjon szerveroldali hitelesítést helyette), illetve a gyűjtés kezelésére (lásd a Súgót). Ha biztos szeretne lenni abban, hogy egy URL nincs indexelve, használja inkább a robots metacímkét vagy az X-Robots-Tag HTTP-fejlécet.
  2. robots metacímke: Akkor használja, ha szabályoznia kell, hogy miként jelenjen meg egy HTML-oldal a keresési találatokban (vagy ha azt szeretné, hogy egyáltalán ne jelenjen meg).
  3. X-Robots-Tag HTTP-fejléc: Akkor használja, ha szabályozni szeretné, hogy miként jelenjen meg a nem HTML-tartalom a keresési találatokban (vagy ha azt szeretné, hogy egyáltalán ne jelenjen meg).

Használhatom ezeket a módszereket valaki más webhelyének eltávolítására?

Nem. Ezek a módszerek csak azoknál a webhelyeknél használhatók, amelyeknél módosíthatja a kódot, illetve fájlokat adhat a webhelyhez. Ha egy harmadik fél webhelyéről szeretne tartalmat eltávolítani, akkor fel kell vennie a kapcsolatot a webmesterrel, és kérnie kell tőle a tartalom eltávolítását.

Hogyan lassíthatom le webhelyem Google általi feltérképezését?

Általánosságban módosíthatja a feltérképezés gyakoriságát a Google Search Console-fiókjában.

A robots.txt fájllal kapcsolatos kérdések

Ugyanazt a robots.txt fájlt használom több webhelynél. Használhatok teljes URL-címet a relatív útvonal helyett?

Nem. A robots.txt fájlban szereplő utasítások (a „Sitemap:” kivételével) csak relatív útvonalakra érvényesek.

Helyezhetem a robots.txt fájlt alkönyvtárba?

Nem. A fájlt a webhely legfelső könyvtárában kell elhelyezni.

Le szeretnék tiltani egy privát mappát. Megakadályozhatom, hogy mások elolvassák a robots.txt fájlomat?

Nem. A robots.txt fájlt a felhasználók is elolvashatják. Ha nem szeretné, hogy nyilvánosak legyenek a tartalom mappái vagy fájlnevei, akkor ne sorolja fel őket a robots.txt fájlban. Nem ajánlott különböző robots.txt fájlok használata a felhasználói ügynökök és más attribútumok alapján.

Szerepeltetnem kell allow utasítást a feltérképezés engedélyezéséhez?

Nem. Nem kell alkalmaznia az allow utasítást. Az allow utasítás arra használható, hogy felülbírálja a disallow utasításokat ugyanabban a robots.txt fájlban.

Mi történik, ha hiba van a robots.txt fájlomban, illetve nem támogatott utasítást használok?

A webes feltérképező robotok általában nagyon rugalmasak, és jellemzően nem zavarják meg őket a robots.txt fájlban előforduló apró hibák. Általában a legrosszabb, ami történhet, hogy a robot figyelmen kívül hagyja a helytelen, illetve nem támogatott utasításokat. Vegye figyelembe, hogy a Google nem képes gondolatolvasásra a robots.txt fájl értelmezése során – a kapott robots.txt fájlt kell értelmeznünk. Éppen ezért ha tudomása van problémákról a robots.txt fájljában, ne feledje, hogy megoldásuk általában egyszerű.

Milyen programmal hozzam létre a robots.txt fájlt?

Bármit használhat, ami érvényes szövegfájlt hoz létre. A robots.txt fájlok létrehozásához gyakran használt programok a Jegyzettömb, a TextEdit, a vi és az emacs. További információ a robots.txt fájlok létrehozásáról. Miután létrehozta a fájlt, érvényesítse a robots.txt tesztelőeszköze segítségével.

Ha letiltom a Google számára valamelyik oldal feltérképezését a robots.txt fájl disallow utasításával, eltűnik az oldal a keresési találatok közül?

Ha letiltja a Google számára az oldal feltérképezését, azzal valószínűleg eltávolítja az oldalt a Google indexéből. 

Azonban a robots.txt Disallow utasítása nem garantálja azt, hogy az adott oldal nem jelenik meg a keresési találatokban: a Google továbbra is úgy dönthet a külső információk, például beérkező linkek alapján, hogy az oldal releváns. Ha biztos szeretne lenni abban, hogy egy adott oldal nincs indexelve, használja inkább a noindex metacímkét vagy az X-Robots-Tag HTTP-fejlécet. Ebben az esetben nem kell letiltania az oldalt a robots.txt fájlban, mert az oldalt fel kell térképezni ahhoz, hogy a címke látható és végrehajtható legyen.

Mennyi ideig tart, mire a robots.txt fájlomban szereplő módosítások hatással lesznek a keresési találataimra?

Először frissíteni kell a robots.txt fájl gyorsítótárát (a tartalmakat általában legfeljebb egy napra gyorsítótárazzuk). Még a módosítás észrevétele után is a feltérképezés és az indexelés egy bonyolult folyamat, amely egész hosszú ideig tarthat egyes URL-eknél, így pontos becslést nem tudunk adni. Továbbá azt se feledje, hogy még ha a robots.txt fájl le is tiltja a hozzáférést egy URL-hez, az adott URL látható maradhat a keresési találatokban annak ellenére, hogy nem tudjuk feltérképezni. Ha fel szeretné gyorsítani azoknak az oldalaknak az eltávolítását, amelyeket letiltott a Google számára, küldjön be eltávolítási kérelmet a Google Search Console-on keresztül.

Hogyan függeszthetem fel ideiglenesen webhelyem feltérképezését?

Ideiglenesen felfüggeszthet minden feltérképezést, ha az 503-as HTTP-eredménykódot adja vissza mindegyik URL-nél, beleértve a robots.txt fájlt is. A rendszer időről-időre megpróbálja újra elérni a robots.txt fájlt, amíg újra hozzáférhetővé nem válik. Nem javasoljuk, hogy a feltérképezés letiltásának céljából módosítsa a robots.txt fájlt.

Szerveremnél a kis- és nagybetűk nem különböznek. Hogyan tilthatom le teljes körűen egyes mappák feltérképezését?

A robots.txt fájlban szereplő utasítások megkülönböztetik a kis- és nagybetűket. Ebben az esetben javasoljuk, hogy gyűjtési módszerekkel győződjön meg arról, hogy az URL-nek csak egy verziója legyen indexelve. Ezáltal egyszerűsítheti a robots.txt fájlt. Ha ez nem lehetséges, javasoljuk, hogy sorolja fel a mappanév gyakori kombinációit, vagy rövidítse le annyira, amennyire lehetséges úgy, hogy a teljes név helyett csak az első néhány karaktert használja. Például ahelyett, hogy felsorolná a „/SajatMappa” minden kis- és nagybetűs változatát, használhatja helyette a „/SajM” változatait (amennyiben biztos benne, hogy nincs más, feltérképezhető URL azonos első karakterekkel). Emellett érdemes lehet robots metacímkét vagy X-Robots-Tag HTTP-fejlécet használni, ha a feltérképezés nem probléma.

A 403 „Tiltott” hibát küldöm vissza minden URL-nél, beleértve a robots.txt fájlt is. Miért térképezik fel továbbra is a webhelyet?

A 403-as HTTP-eredménykód – a többi 4xx HTTP-eredménykódhoz hasonlóan – annak a jele, hogy a robots.txt fájl nem létezik. Emiatt a feltérképező robotok általában azt feltételezik, hogy fel tudják térképezni a webhely összes URL-jét. A webhely feltérképezésének letiltása érdekében a robots.txt visszaküldése normál módon kell, hogy történjen (a 200-as „OK” HTTP-eredménykóddal), és a fájlban megfelelő „disallow” utasításnak kell szerepelnie.

A robots metacímkével kapcsolatos kérdések

A robots metacímke helyettesíti a robots.txt fájlt?

Nem. A robots.txt fájl határozza meg, hogy mely oldalakhoz fér hozzá a robot. A robots metacímke határozza meg, hogy végbemenjen-e az oldal indexelése, ám a címke olvasásához az oldalt fel kell térképezni. Ha egy oldal feltérképezése problematikus (például az oldal leterheli a szervert), akkor érdemes használnia a robots.txt fájlt. Ha csak az a kérdés, hogy egy oldal megjelenik-e a keresési találatok között, akkor használhatja a robots metacímkét.

Használható a robots metacímke oldalrészek indexelésének letiltására?

Nem. A robots metacímke oldalszintű beállítás.

Használhatom a robots metacímkét <head> szakaszon kívül is?

Nem. A robots metacímkének jelenleg az oldal <head> szakaszában kell szerepelnie.

A robots metacímke letiltja a feltérképezést?

Nem. Még ha a robots metacímke jelenleg a noindex utasítást tartalmazza is, időről időre újra fel kell térképeznünk az URL-t annak megállapításához, hogy nem változott-e a metacímke.

Mi a különbség a nofollow robots címke és a rel="nofollow" linkattribútum között?

A nofollow robots metacímke egy oldal összes linkjére érvényes. A rel="nofollow" linkattribútum csak egy oldal adott linkjeire vonatkozik. Ha további információt szeretne a rel="nofollow" linkattribútumról, tekintse meg a felhasználó által létrehozott spamről és a rel="nofollow" attribútumról szóló súgócikkeket.

Az X-Robots-Tag HTTP-fejléccel kapcsolatos kérdések

Hogyan ellenőrizhetem az X-Robots-Tag elemet egy URL-nél?

A szerver fejléceinek megtekintésére egyszerű módszer webalapú szerverfejléc-ellenőrző vagy a Google Search Console szolgáltatásban megtalálható „Megtekintés Googlebotként” funkció használata.

Hasznosnak találta?
Hogyan fejleszthetnénk?