URL's blokkeren met robots.txt

Veelgestelde vragen over robots

Algemene vragen over robots

Vragen over robots.txt

Vragen over de robots-metatag

Vragen over de HTTP-header X-Robots-Tag

Zijn we een veelgestelde vraag vergeten? Als u meer hulp nodig heeft, kunt u een bericht op ons Helpforum voor webmasters posten.

Algemene vragen over robots

Heeft mijn website een robots.txt-bestand nodig?

Nee. Wanneer Googlebot een website bezoekt, vragen we eerst toestemming om de site te crawlen door het robots.txt-bestand op te halen. Een website zonder robots.txt-bestand, robots-metatags of de HTTP-header X-Robots-Tag wordt gewoonlijk normaal gecrawld en geïndexeerd.

Welke methode moet ik gebruiken?

Dat hangt ervan af. Er zijn goede redenen voor het gebruik van elk van deze methoden:

  1. robots.txt: Gebruik het robots.txt-bestand als het crawlen van uw content problemen op de server veroorzaakt. Het is bijvoorbeeld mogelijk dat u niet wilt dat de oneindige scripts voor uw agenda worden gecrawld. Gebruik het robots.txt-bestand niet om privécontent te blokkeren (gebruik hiervoor verificatie aan serverzijde) of om canonieke URL's te verwerken (ga naar ons Helpcentrum). Als u zeker moet weten dat een bepaalde URL niet wordt geïndexeerd, gebruikt u de robots-metatag of de HTTP-header X-Robots-Tag.
  2. robots-metatag: Gebruik deze metatag om te bepalen hoe een afzonderlijke HTML-pagina wordt weergegeven in zoekresultaten (of om ervoor te zorgen dat de pagina niet wordt weergegeven).
  3. HTTP-header X-Robots-Tag: Gebruik deze header om te bepalen hoe niet-HTML-content wordt weergegeven in zoekresultaten (of om ervoor te zorgen dat deze content niet wordt weergegeven).

Kan ik deze methoden gebruiken om de site van iemand anders te verwijderen?

Nee. Deze methoden zijn alleen geldig voor sites waarvan u de code kunt wijzigen of waaraan u bestanden kunt toevoegen. Als u content van een website van derden wilt verwijderen, moet u contact opnemen met de webmaster met het verzoek de content te verwijderen.

Hoe kan ik ervoor zorgen dat Google mijn website minder vaak crawlt?

Hiervoor kunt u de instelling voor de crawlsnelheid in uw Google Search Console-account aanpassen.

Vragen over robots.txt

Ik gebruik hetzelfde robots.txt-bestand voor meerdere websites. Kan ik een volledige URL in plaats van een relatief pad gebruiken?

Nee. De instructies in het robots.txt-bestand (met uitzondering van Sitemap:) zijn alleen geldig voor relatieve paden.

Kan ik het robots.txt-bestand in een submap plaatsen?

Nee. Het bestand moet in de hoofdmap van de website worden geplaatst.

Ik wil een privémap blokkeren. Kan ik voorkomen dat andere mensen mijn robots.txt-bestand kunnen lezen?

Nee. Het robots.txt-bestand kan worden gelezen door verschillende gebruikers. Als mappen of bestandsnamen van content niet openbaar mogen zijn, moeten ze niet in het robots.txt-bestand worden vermeld. Het wordt afgeraden verschillende robots.txt-bestanden te gebruiken op basis van de user-agent of andere kenmerken.

Moet ik de instructie allow opnemen om crawlen toe te staan?

Nee. U hoeft de instructie allow niet op te nemen. De instructie allow wordt gebruikt om de instructie disallow in hetzelfde robots.txt-bestand te negeren.

Wat gebeurt er wanneer mijn robots.txt-bestand een fout bevat of ik een niet-ondersteunde instructie gebruik?

Webcrawlers zijn doorgaans zeer flexibel en trekken zich over het algemeen weinig aan van kleine fouten in het robots.txt-bestand. In het ergste geval worden onjuiste/niet-ondersteunde instructies genegeerd. Vergeet echter niet dat Google geen gedachten kan lezen bij de interpretatie van een robots.txt-bestand. We moeten het robots.txt-bestand interpreteren dat we hebben opgehaald. Dat gezegd hebbende, als u zich bewust bent van problemen in uw robots.txt-bestand, zijn deze gewoonlijk vrij eenvoudig op te lossen.

Welk programma moet ik gebruiken om een robots.txt-bestand te maken?

U kunt elk programma gebruiken waarmee u een geldig tekstbestand kunt maken. Veelgebruikte programma's voor het maken van robots.txt-bestanden zijn Notepad, TextEdit, vi of emacs. Google Search Console bevat een tool waarmee u een robots.txt-bestand voor uw website kunt maken. Zodra het robots.txt-bestand op de website is geplaatst, kunt u de geldigheid verifiëren met de functie Fetchen als Googlebot in Google Search Console. U kunt Search Console ook gebruiken om een robots.txt-bestand te genereren.

Als ik de instructie disallow in een robots.txt-bestand gebruik om te voorkomen dat Google een pagina crawlt, verdwijnt deze pagina dan uit de zoekresultaten?

Als u een pagina blokkeert zodat deze niet door Google kan worden gecrawld, gaat dit waarschijnlijk ten koste van de positie van de pagina en wordt deze na verloop van tijd mogelijk helemaal niet meer weergegeven in zoekresultaten. Het is ook mogelijk dat er minder details voor gebruikers worden weergegeven in de tekst onder het zoekresultaat. Dit komt omdat de zoekmachine zonder de content van de pagina veel minder informatie heeft om mee te werken.

De instructie Disallow in het robots.txt-bestand biedt echter geen garantie dat een pagina niet wordt weergegeven in resultaten. Google kan op basis van externe informatie, zoals binnenkomende links, alsnog besluiten dat de pagina relevant is. Als u een pagina expliciet wilt blokkeren zodat deze niet wordt geïndexeerd, moet u in plaats daarvan de robots-metatag noindex of de HTTP-header X-Robots-Tag gebruiken. In dit geval moet u de toegang niet in het robots.txt-bestand blokkeren, omdat de pagina moet worden gecrawld om de tag te kunnen zien en te respecteren.

Hoe lang duurt het voordat wijzigingen in mijn robots.txt-bestand van invloed zijn op mijn zoekresultaten?

Eerst moet de cache van het robots.txt-bestand worden vernieuwd (gewoonlijk wordt de content maximaal één dag in het cachegeheugen bewaard). Zelfs nadat de wijziging is gevonden, blijft het crawlen en indexeren een gecompliceerd proces dat soms enige tijd in beslag kan nemen voor afzonderlijke URL's, waardoor het niet mogelijk is een exacte tijdlijn te geven. Vergeet ook niet dat zelfs wanneer uw robots.txt-bestand de toegang tot een URL blokkeert, deze URL mogelijk toch zichtbaar blijft in zoekresultaten, ondanks het feit dat we de URL niet kunnen crawlen. Als u de pagina's die u voor Google heeft geblokkeerd, sneller wilt verwijderen, kunt u via Google Search Console een verwijderingsverzoek indienen.

Hoe geef ik URL's voor AJAX-crawling op in het robots.txt-bestand?

U moet de gecrawlde URL's gebruiken wanneer u URL's opgeeft die de AJAX-crawlprocedure gebruiken.

Hoe kan ik het crawlen van mijn website tijdelijk opschorten?

U kunt het crawlen van alle pagina's tijdelijk opschorten door de HTTP-resultaatcode 503 voor alle URL's te retourneren, inclusief het robots.txt-bestand. Er wordt periodiek geprobeerd het robots.txt-bestand opnieuw te crawlen totdat het weer toegankelijk is. We raden u niet aan het robots.txt-bestand te wijzigen om te voorkomen dat uw website wordt gecrawld.

Mijn server is niet hoofdlettergevoelig. Hoe kan ik voorkomen dat bepaalde mappen worden gecrawld?

Instructies in het robots.txt-bestand zijn hoofdlettergevoelig. In dit geval raden we u aan ervoor te zorgen dat slechts één versie van de URL wordt geïndexeerd door methoden voor canonieke URL's te gebruiken. Zodoende kunt u uw robots.txt-bestand vereenvoudigen. Als dit niet mogelijk is, raden we u aan de veelgebruikte combinaties van de mapnaam te vermelden of om deze zo veel mogelijk in te korten door alleen de eerste paar tekens in plaats van de volledige naam te gebruiken. In plaats van dat u alle mogelijk combinaties van hoofdletters en kleine letters vermeld voor '/MyPrivateFolder', kunt u bijvoorbeeld de combinatie '/MyP' gebruiken (als u zeker weet dat er geen andere crawlbare URL's met deze eerste tekens bestaan). Het kan eventueel nuttig zijn een robots-metatag of een HTTP-header met een X-Robots-Tag te gebruiken als het crawlen geen probleem vormt.

Ik retourneer HTTP-fout 403 (Verboden) voor alle URL's, waaronder het robots.txt-bestand. Waarom wordt de site nog steeds gecrawld?

De HTTP-resultaatcode 403 wordt, net als alle andere 4xx HTTP-resultaatcodes, gezien als signaal dat het robots.txt-bestand niet bestaat. Hierdoor gaan crawlers ervan uit dat ze alle URL's van de website kunnen crawlen. Als u het crawlen van de website wilt blokkeren, moet het robots.txt-bestand normaal worden geretourneerd (met de HTTP-resultaatcode 200 (geslaagd)) met daarin de instructie 'disallow'.

Vragen over de robots-metatag

Kan de robots-metatag worden gebruikt ter vervanging van het robots.txt-bestand?

Nee. Met het robots.txt-bestand wordt bepaald welke pagina's toegankelijk zijn. De robots-metatag bepaalt of een pagina wordt geïndexeerd, maar wordt alleen gezien wanneer deze wordt gecrawld. Als het crawlen van een pagina problemen oplevert (bijvoorbeeld als de pagina een hoge belasting van de server veroorzaakt), moet u het robots.txt-bestand gebruiken. Als het u alleen gaat om de weergave van de pagina in zoekresultaten, kunt u de robots-metatag gebruiken.

Kan de robots-metatag worden gebruikt om een gedeelte van de pagina te blokkeren, zodat dit gedeelte niet wordt geïndexeerd?

Nee. De robots-metatag is een instelling op paginaniveau.

Kan ik de robots-metatag buiten het gedeelte <head> gebruiken?

Nee. De robots-metatag moet zich momenteel in het <head>-gedeelte van een pagina bevinden.

Blokkeert de robots-metatag crawlers?

Nee. Zelfs wanneer de robots-metatag momenteel de instructie noindex bevat, moeten we de URL af en toe opnieuw crawlen om te controleren of de metatag is gewijzigd.

Wat is het verschil tussen de robots-metatag nofollow en het linkkenmerk rel="nofollow"?

De robots-metatag nofollow is van toepassing op alle links op een pagina. Het linkkenmerk rel="nofollow" is alleen van toepassing op specifieke links op de pagina. Bekijk de artikelen in ons Helpcentrum over door gebruikers gegenereerde spam en rel="nofollow" voor meer informatie over het linkkenmerk rel="nofollow".

Vragen over de HTTP-header X-Robots-Tag

Hoe kan ik de X-Robots-Tag voor een URL controleren?

U kunt de serverheaders eenvoudig bekijken door gebruik te maken van een webgebaseerd programma voor het controleren van serverheaders. U kunt ook de functie Fetchen als Googlebot in Google Search Console gebruiken.

Was dit artikel nuttig?
Hoe kunnen we dit verbeteren?