Zoeken
Zoekopdracht verwijderen
Zoeken sluiten
Google-apps
Hoofdmenu

URL's blokkeren met robots.txt

Meer informatie over robots.txt-bestanden

Een robots.txt-bestand is een bestand in de hoofdmap van uw site waarin u aangeeft welke delen van uw site niet toegankelijk zijn voor crawlers van zoekmachines. Het bestand gebruikt de Robots Exclusion Standard. Dit is een protocol met een klein aantal opdrachten waarmee u de toegang tot uw site kunt aangeven per sectie en per specifiek soort webcrawlers (zoals mobiele crawlers versus desktopcrawlers).

Waarvoor wordt robots.txt gebruikt?

Niet-afbeeldingsbestanden

Voor niet-afbeeldingsbestanden (dat wil zeggen, webpagina's) moet robots.txt alleen worden gebruikt om het crawlverkeer te beheren, gewoonlijk omdat u niet wilt dat uw server wordt overbelast door de crawler van Google of u geen crawlbudget wilt verspillen aan het crawlen van onbelangrijke of vergelijkbare pagina's op uw site. U moet robots.txt niet gebruiken als manier om uw webpagina's te verbergen in zoekresultaten van Google. Dit komt omdat andere pagina's mogelijk verwijzen naar uw pagina, waardoor uw pagina op die manier kan worden geïndexeerd en het robots.txt-bestand wordt vermeden. Als u uw pagina wilt blokkeren voor weergave in de zoekresultaten, gebruikt u een andere methode, zoals wachtwoordbeveiliging of noindex-tags of -instructies.

Afbeeldingsbestanden

robots.txt voorkomt dat afbeeldingsbestanden worden weergegeven in zoekresultaten van Google. (Het bestand voorkomt echter niet dat andere pagina's of gebruikers linken naar uw afbeelding.)

Bronbestanden

U kunt robots.txt gebruiken om bronbestanden (zoals onbelangrijke afbeeldings-, script- of stijlbestanden) te blokkeren. U kunt dit doen als u denkt dat het verlies van de bronnen geen aanzienlijke impact heeft op pagina's die zonder deze bronnen worden geladen. Als de afwezigheid van deze bronnen echter tot gevolg heeft dat de crawler van Google de pagina minder goed kan interpreteren, moet u ze niet blokkeren. Als u dit wel doet, kan Google de pagina's die afhankelijk zijn van die bronnen, niet goed analyseren.

Begrijpen wat de beperkingen van robots.txt zijn

Voordat u uw robots.txt-bestand maakt, moet u weten wat de risico's van deze URL-blokkeringsmethode zijn. Er zijn bepaalde situaties waarin u kunt overwegen andere mechanismen te gebruiken om ervoor te zorgen dat uw URL's niet vindbaar zijn op internet.

  • Robots.txt-instructies zijn slechts richtlijnen

    De instructies in robots.txt-bestanden kunnen het gedrag van crawlers op uw site niet afdwingen. Deze instructies fungeren als richtlijnen voor de crawlers die uw site openen. Hoewel Googlebot en andere respectabele webcrawlers de instructies in een robots.txt-bestand opvolgen, is het mogelijk dat andere crawlers dat niet doen. Als u informatie wilt beveiligen zodat deze niet wordt geopend door webcrawlers, kunt u beter andere blokkeringsmethoden gebruiken, zoals wachtwoordbeveiliging voor privébestanden op uw server.
  • Verschillende crawlers interpreteren syntaxis op verschillende manieren

    Hoewel respectabele webcrawlers de richtlijnen in een robots.txt-bestand opvolgen, kan elke crawler de richtlijnen op een andere manier interpreteren. U moet op de hoogte zijn van de juiste syntaxis voor verschillende webcrawlers, omdat sommige bepaalde instructies mogelijk niet begrijpen.
  • Uw robots.txt-richtlijnen kunnen verwijzingen naar uw URL's vanaf andere sites niet voorkomen

    Hoewel Google de inhoud die wordt geblokkeerd door robots.txt, niet crawlt of indexeert, kunnen we nog steeds een niet-toegestane URL vinden en indexeren via andere plaatsen op internet. Als gevolg hiervan kan het URL-adres en eventueel andere openbaar beschikbare informatie, zoals de linktekst in links naar de site, worden weergegeven in de zoekresultaten van Google. U kunt ervoor zorgen dat uw URL helemaal niet wordt weergegeven in zoekresultaten van Google door andere URL-blokkeringsmethoden te gebruiken, zoals het instellen van wachtwoordbeveiliging voor de bestanden op uw server of het gebruik van de noindex-metatag of -reactieheader.
Opmerking: Als u meerdere richtlijnen voor crawlen en indexeren combineert, is het mogelijk dat bepaalde richtlijnen andere richtlijnen tegengaan. Lees het gedeelte over het combineren van richtlijnen voor crawlen met richtlijnen voor indexeren/weergeven in de Google Developers-documentatie voor informatie over een correcte configuratie van deze richtlijnen.
Was dit artikel nuttig?