URL's blokkeren met robots.txt

Meer informatie over robots.txt-bestanden

Wat is een robots.txt-bestand?

Een robots.txt-bestand laat crawlers van zoekmachines weten welke pagina's of bestanden de crawler wel of niet kan aanvragen op je site. Dit bestand wordt voornamelijk gebruikt om te voorkomen dat je site wordt overspoeld met verzoeken. Het bestand is geen mechanisme om een webpagina uit Google-zoekresultaten weg te laten. Als je een webpagina niet op Google wilt weergeven, moet je gebruikmaken van noindex-tags of -instructies of de pagina beveiligen met een wachtwoord.

Waarvoor wordt robots.txt gebruikt?

Het bestand robots.txt wordt voornamelijk gebruikt om crawlerverkeer naar je site te beheren en af en toe om een pagina niet op Google weer te geven, afhankelijk van het bestandstype.

Paginatype Verkeersbeheer Verbergen van Google Beschrijving
Webpagina

In het geval van webpagina's (html, pdf of andere niet-media-indelingen die Google kan lezen) kan robots.txt worden gebruikt voor het beheer van crawlverkeer als je denkt dat je server de verzoeken van de Google-crawler niet aankan of om te voorkomen dat onbelangrijke of vergelijkbare pagina's op je site worden gecrawld.

Je moet robots.txt niet gebruiken als manier om je webpagina's te verbergen in zoekresultaten van Google. Dit komt omdat als andere pagina's met beschrijvende tekst naar je pagina verwijzen, je pagina nog steeds kan worden geïndexeerd zonder dat de pagina wordt bezocht. Als je je pagina wilt blokkeren voor weergave in de zoekresultaten, gebruik dan een andere methode, zoals wachtwoordbeveiliging of een noindex-instructie.

Als je webpagina wordt geblokkeerd met een robots.txt-bestand, kan deze nog steeds worden weergegeven in de zoekresultaten. Het zoekresultaat omvat dan geen beschrijving en ziet eruit zoals op deze link. Afbeeldingsbestanden, videobestanden, pdf's en andere niet-html-bestanden worden uitgesloten. Als je dit zoekresultaat voor je pagina ziet en wilt verhelpen, verwijder je het robots.txt-element dat de pagina blokkeert. Als je de pagina volledig wilt verbergen in de zoekresultaten, gebruik je een andere methode.

Mediabestand

Gebruik robots.txt om crawlverkeer te beheren en om te voorkomen dat afbeeldings-, video- en audiobestanden worden weergegeven in de zoekresultaten van Google. (Onthoud dat hiermee niet wordt voorkomen dat andere pagina's of gebruikers kunnen linken naar je afbeeldings-/video-/audiobestand.)

Bronbestand

Je kunt robots.txt gebruiken om bronbestanden (zoals onbelangrijke afbeeldings-, script- of stijlbestanden) te blokkeren. Je kunt dit doen als je denkt dat het verlies van de bronnen geen aanzienlijke impact heeft op pagina's die zonder deze bronnen worden geladen. Als de afwezigheid van deze bronnen echter tot gevolg heeft dat de crawler van Google de pagina minder goed kan interpreteren, moet je ze niet blokkeren. Als je dit wel doet, kan Google de pagina's die afhankelijk zijn van die bronnen niet goed analyseren.

Ik gebruik een sitehostingservice

Als je een sitehostingservice gebruikt, zoals WIX, Drupal of Blogger, hoef je je robots.txt-bestand mogelijk niet rechtstreeks te bewerken (of is dit niet mogelijk). In plaats daarvan kan je provider een pagina-instelling of ander mechanisme aanbieden om zoekmachines te laten weten of je pagina wel of niet moet worden gecrawld.

Als je wilt zien of je pagina is gecrawld door Google, zoek dan op Google naar de pagina-URL.

Als je je pagina wilt verbergen (of zichtbaar wilt maken), voeg dan loginvereisten voor de pagina toe (of verwijder deze) en zoek op Google naar instructies van je siteprovider voor aanpassing van de zichtbaarheid van je pagina in zoekmachines (bijvoorbeeld via een zoekopdracht zoals 'wix pagina verbergen in zoekmachines'.

Begrijpen wat de beperkingen van robots.txt zijn

Voordat je je robots.txt-bestand maakt of bewerkt, moet je weten wat de beperkingen zijn van deze URL-blokkeringsmethode. Er zijn bepaalde situaties waarin je kunt overwegen andere mechanismen te gebruiken om ervoor te zorgen dat je URL's niet vindbaar zijn op internet.

  • Robots.txt-instructies zijn slechts richtlijnen
    De instructies in robots.txt-bestanden kunnen het gedrag van crawlers op je site niet afdwingen. Deze instructies fungeren als richtlijnen voor de crawlers die je site openen. Hoewel Googlebot en andere respectabele webcrawlers de instructies in een robots.txt-bestand opvolgen, is het mogelijk dat andere crawlers dat niet doen. Als je informatie wilt beveiligen zodat deze niet wordt geopend door webcrawlers, kun je beter andere blokkeringsmethoden gebruiken, zoals wachtwoordbeveiliging voor privébestanden op je server.
  • Verschillende crawlers interpreteren syntaxis op verschillende manieren
    Hoewel respectabele webcrawlers de richtlijnen in een robots.txt-bestand opvolgen, kan elke crawler de richtlijnen op een andere manier interpreteren. Je moet op de hoogte zijn van de juiste syntaxis voor verschillende webcrawlers, omdat sommige bepaalde instructies mogelijk niet begrijpen.
  • Een geblokkeerde pagina kan nog steeds worden geïndexeerd als hiernaar wordt gelinkt vanaf andere sites
    Hoewel Google de content die door robots.txt wordt geblokkeerd, niet crawlt of indexeert, kunnen we nog steeds een niet-toegestane URL vinden en indexeren als hiernaar wordt gelinkt vanaf andere plaatsen op internet. Als gevolg hiervan kan het URL-adres en eventueel andere openbaar beschikbare informatie, zoals de linktekst in links naar de pagina, worden weergegeven in de zoekresultaten van Google. Als je wilt voorkomen dat je URL wordt weergegeven in zoekresultaten van Google, moet je de bestanden op je server beveiligen met een wachtwoord of de noindex-metatag of -reactieheader gebruiken (of de pagina helemaal verwijderen).
Opmerking: Als je meerdere richtlijnen voor crawlen en indexeren combineert, is het mogelijk dat bepaalde richtlijnen andere richtlijnen tegengaan. Lees het gedeelte over het combineren van richtlijnen voor crawlen met richtlijnen voor indexeren/weergeven in de Google Developers-documentatie voor informatie over een correcte configuratie van deze richtlijnen.

Een pagina testen op robots.txt-blokkeringen

Je kunt testen of een pagina of bron wordt geblokkeerd door een robots.txt-regel.

Gebruik de URL-inspectietool te testen op noindex-instructies.

Was dit artikel nuttig?
Hoe kunnen we dit verbeteren?