URL's blokkeren met robots.txt

Meer informatie over robots.txt-bestanden

Een robots.txt-bestand is een bestand in de hoofdmap van uw site waarin u aangeeft welke delen van uw site niet toegankelijk zijn voor crawlers van zoekmachines. Het bestand gebruikt de Robots Exclusion Standard. Dit is een protocol met een klein aantal opdrachten waarmee u de toegang tot uw site kunt aangeven per sectie en per specifiek soort webcrawlers (zoals mobiele crawlers versus desktopcrawlers).

U heeft alleen een robots.txt-bestand nodig als uw site inhoud bevat die u niet wilt laten indexeren door Google of andere zoekmachines.

Als u wilt testen welke URL's van uw website wel en niet toegankelijk zijn voor Google, gebruikt u de tool robots.txt-tester.

Begrijpen wat de beperkingen van robots.txt zijn

Voordat u uw robots.txt-bestand maakt, moet u weten wat de risico's van deze URL-blokkeringsmethode zijn. Er zijn bepaalde situaties waarin u kunt overwegen andere mechanismen te gebruiken om ervoor te zorgen dat uw URL's niet vindbaar zijn op internet.

  • Robots.txt-instructies zijn slechts richtlijnen

    De instructies in robots.txt-bestanden kunnen het gedrag van crawlers op uw site niet afdwingen. Deze instructies fungeren als richtlijnen voor de crawlers die uw site openen. Hoewel Googlebot en andere respectabele webcrawlers de instructies in een robots.txt-bestand opvolgen, is het mogelijk dat andere crawlers dat niet doen. Als u informatie wilt beveiligen zodat deze niet wordt geopend door webcrawlers, kunt u beter andere blokkeringsmethoden gebruiken, zoals wachtwoordbeveiliging voor privébestanden op uw server.
  • Verschillende crawlers interpreteren syntaxis op verschillende manieren

    Hoewel respectabele webcrawlers de richtlijnen in een robots.txt-bestand opvolgen, kan elke crawler de richtlijnen op een andere manier interpreteren. U moet op de hoogte zijn van de juiste syntaxis voor verschillende webcrawlers, omdat sommige bepaalde instructies mogelijk niet begrijpen.
  • Uw robots.txt-richtlijnen kunnen verwijzingen naar uw URL's vanaf andere sites niet voorkomen

    Hoewel Google de inhoud die wordt geblokkeerd door robots.txt, niet crawlt of indexeert, kunnen we nog steeds een niet-toegestane URL vinden en indexeren via andere plaatsen op internet. Als gevolg hiervan kan het URL-adres en eventueel andere openbaar beschikbare informatie, zoals de linktekst in links naar de site, worden weergegeven in de zoekresultaten van Google. U kunt ervoor zorgen dat uw URL helemaal niet worden weergegeven in de zoekresultaten van Google door uw robots.txt-bestand te gebruiken in combinatie met andere URL-blokkeringsmethoden, zoals het instellen van wachtwoordbeveiliging voor de bestanden op uw server of het invoegen van metatags met indexeringsrichtlijnen in uw HTML-code.
Opmerking: Als u meerdere richtlijnen voor crawlen en indexeren combineert, is het mogelijk dat bepaalde richtlijnen andere richtlijnen tegengaan. Lees het gedeelte over het combineren van richtlijnen voor crawlen met richtlijnen voor indexeren/weergeven in de Google Developers-documentatie voor informatie over een correcte configuratie van deze richtlijnen.
Was dit artikel nuttig?