robots.txt-rapport

Nagaan of Google je robots.txt-bestanden kan verwerken

Het robots.txt-rapport geeft aan welke robots.txt-bestanden Google heeft gevonden voor de top 20 hosts op je site, de laatste keer dat ze zijn gecrawld en welke waarschuwingen of fouten zijn gevonden. Via het rapport kun je ook een nieuwe crawl van een robots.txt-bestand aanvragen voor noodsituaties.

Een robots.txt-bestand wordt gebruikt om te voorkomen dat zoekmachines je site crawlen. Gebruik noindex als je wilt voorkomen dat content in zoekresultaten verschijnt.

Dit rapport is alleen beschikbaar voor property's op domeinniveau. Dit houdt het volgende in:

Een domeinproperty (zoals example.com of m.example.com), of
Een property met een URL-voorvoegsel zonder pad, zoals https://example.com/, maar niet https://example.com/pad/.

Het robots.txt-rapport openen

Je robots.txt-bestanden en crawlstatus bekijken

In een domeinproperty bevat het rapport robots.txt-bestanden van de top 20 hosts in die property.

Voor elk robots.txt-bestand dat door Search Console is gecheckt, kun je de volgende informatie bekijken:

Bestandspad: De volledige URL waar Google heeft gecheckt op de aanwezigheid van een robots.txt-bestand. Een URL wordt alleen in het rapport getoond als deze in de afgelopen 30 dagen de status Opgehaald of Niet opgehaald heeft. Ga naar Locatie van robots.txt-bestanden.
Status van ophalen: De status van het laatste ophaalverzoek voor dit bestand. De volgende waarden zijn mogelijk:
- Niet opgehaald - Niet gevonden (404): Er is een 404-fout (het bestand bestaat niet) opgetreden toen dit bestand werd aangevraagd. Als je een robots.txt-bestand op de vermelde URL hebt gepost maar deze fout aantreft, inspecteer je de URL om na te gaan of er beschikbaarheidsproblemen zijn. Een bestand met de status Niet gevonden (404) gedurende 30 dagen wordt niet meer getoond in het rapport (Google blijft dit wel op de achtergrond controleren). Geen robots.txt-fout is geen probleem. Dit betekent dat Google alle URL's op je site kan crawlen. Meer informatie over hoe Google zich gedraagt bij een robots.txt-fout
- Niet opgehaald - Elke andere reden: Er is een ander probleem opgetreden bij het aanvragen van dit bestand. Ga naar de lijst met indexeringsproblemen.
- Opgehaald: De laatste crawlpoging heeft een robots.txt-bestand geretourneerd. Problemen die worden gevonden bij het parseren van het bestand, vind je in de kolom Problemen. Google negeert de regels met problemen en gebruikt de regels die kunnen worden geparseerd.
Gecheckt op: Wanneer Google voor het laatst heeft geprobeerd deze URL te crawlen, in de lokale tijd.
Grootte: De grootte van het opgehaalde bestand in bytes. Als de laatste ophaalpoging is mislukt, is dit veld leeg.
Problemen: De tabel toont het aantal parseerproblemen in de bestandsinhoud toen het bestand voor het laatst werd opgehaald. Fouten voorkomen dat een regel wordt gebruikt. Waarschuwingen voorkomen niet dat een regel wordt gebruikt. Check hoe Google zich gedraagt bij een robots.txt-fout. Gebruik een robots.txt-validator om parseerproblemen op te lossen.

De laatst opgehaalde versie bekijken

Je kunt de laatst opgehaalde versie van een robots.txt-bestand checken door erop te klikken in de lijst met bestanden in het rapport. Als het robots.txt-bestand fouten of waarschuwingen bevat, worden deze gemarkeerd in de getoonde bestandsinhoud. Je kunt met de pijltoetsen door de fouten en waarschuwingen bladeren.

Eerder opgehaalde versies bekijken

Als je ophaalverzoeken voor een bepaald robots.txt-bestand in de afgelopen 30 dagen wilt bekijken, klik je op het bestand in de lijst met bestanden in het rapport en daarna op Versies. Klik op de versie om de bestandsinhoud van die versie te bekijken. Een verzoek wordt alleen opgenomen in de geschiedenis als het opgehaalde bestand of ophaalresultaat verschilt van het vorige verzoek voor het ophalen van bestanden.

Als Google bij de laatste ophaalpoging een ophaalfout tegenkomt, gebruikt Google de laatst opgehaalde versie maximaal 30 dagen zonder fouten.

Een nieuwe crawl aanvragen

Je kunt een nieuwe crawl van een robots.txt-bestand aanvragen als je een fout hebt verholpen of een belangrijke wijziging hebt aangebracht.

Wanneer je een nieuwe crawl moet aanvragen

Over het algemeen hoef je geen nieuwe crawl van een robots.txt-bestand aan te vragen, omdat Google je robots.txt-bestanden vaak opnieuw crawlt. In de volgende gevallen kun je echter een nieuwe crawl van je robots.txt-bestand aanvragen:

Je hebt je robots.txt-regels gewijzigd om de blokkering van enkele belangrijke URL's op te heffen en wilt Google dit snel laten weten (houd er rekening mee dat dit niet garandeert dat niet meer geblokkeerde URL's onmiddellijk opnieuw worden gecrawld).
Je hebt een ophaalfout of een andere kritieke fout verholpen.

Een nieuwe crawl aanvragen

Als je een nieuwe crawl wilt aanvragen, selecteer je het icoon Meer instellingen naast een bestand in de lijst met robots-bestanden en klik je op Een nieuwe crawl aanvragen.

Websites van hostingservices voor websites

Als je website wordt gehost op een hostingservice voor websites, is het misschien niet makkelijk om je robots.txt-bestand te bewerken. In dat geval neem je de documentatie van de sitehost door over hoe je kunt voorkomen dat Google specifieke pagina's crawlt of indexeert. (De meeste gebruikers willen voorkomen dat bestanden worden weergegeven op Google Zoeken in plaats van gecrawld door Google. Als dat is wat je wilt, zoek je bij je hostingservice naar informatie over hoe je pagina's blokkeert voor zoekmachines.)

Wat er gebeurt als Google je robots.txt niet kan ophalen of lezen

Als er geen robots.txt-bestand wordt gevonden voor een domein of subdomein, gaat Google ervan uit dat het bestand elke URL binnen die host mag crawlen.

Als Google een robots.txt-bestand vindt maar het niet kan ophalen, volgt Google dit gedrag:

De eerste 12 uur stopt Google met het crawlen van de site, maar blijft Google proberen het robots.txt-bestand op te halen.
Als Google geen nieuwe versie kan ophalen, gebruikt Google de komende 30 dagen de laatste goede versie terwijl er nog steeds wordt geprobeerd een nieuwe versie op te halen. Je kunt de laatste goede versie checken in de versiegeschiedenis.
Als de fouten na 30 dagen nog steeds niet zijn opgelost:
- Als de site algemeen beschikbaar is voor Google, gedraagt Google zich alsof er geen robots.txt-bestand is (maar blijft Google checken op een nieuwe versie).
- Als de site algemene beschikbaarheidsproblemen heeft, stopt Google met het crawlen van de site, maar wordt er nog steeds af en toe een robots.txt-bestand aangevraagd.

Als Google een robots.txt-bestand vindt en kan ophalen: Google leest het bestand regel voor regel. Als een regel een fout bevat of niet kan worden geparseerd naar een robots.txt-regel, wordt deze overgeslagen. Als het bestand geen geldige regels bevat, behandelt Google dit als een leeg robots.txt-bestand. Dit betekent dat er geen regels zijn gedefinieerd voor de site.

Locatie van robots.txt-bestanden

Terminologie:

Een protocol (ook wel een schema genoemd) is HTTP of HTTPS.
Een host is alles in de URL na het protocol (http:// of https://) tot het pad. De host m.de.example.com impliceert dus 3 mogelijke hosts: m.de.example.com, de.example.com en example.com. Elke host kan een eigen robots.txt-bestand hebben.
Een oorsprong is het protocol plus de host. Bijvoorbeeld: https://example.com/ of https://m.example.co.es/

Volgens RFC 9309 moet het robots.txt-bestand in de root van elke protocol- en hostcombinatie van je site staan.

Voor een domeinproperty:

Search Console kiest de top 20 hosts, gesorteerd op crawlsnelheid. Voor elk domein kan het rapport maximaal 2 oorsprongen bevatten, wat betekent dat de tabel maximaal 40 rijen kan tonen. Als je de robots.txt-URL voor een van je hosts niet kunt vinden, maak je een domeinproperty voor het ontbrekende subdomein.
Search Console checkt voor elke host 2 URL's:
- http://<host>/robots.txt
- https://<host>/robots.txt
Als het robots.txt-bestand op de gevraagde URL 30 dagen lang als Niet gevonden wordt gemeld, toont Search Console de URL niet in dit rapport, hoewel Google de URL op de achtergrond blijft controleren. Voor alle andere resultaten merkt het rapport de URL aan als gecontroleerd.

Voor een property met URL-voorvoegsel op hostniveau (zoals https://example.com/) checkt Search Console maar één oorsprong voor die property. Voor de property https://example.com checkt Search Console dus alleen https://example.com/robots.txt en niet http://example.com/robots.txt of https://m.example.com/robots.txt.

Algemene taken

Een robots.txt-bestand bekijken

Als je een robots.txt-bestand in dit rapport wilt openen, klik je op het bestand in de lijst met robots.txt-bestanden. Klik op Live robots.txt openen om het bestand in je browser te openen.

Je kunt elk robots.txt-bestand op internet openen in je browser. Hieronder zie je welke URL je moet bezoeken.

Waar de robots.txt-bestanden zich kunnen bevinden

Een robots.txt-bestand bevindt zich op de root van een protocol en domein. Je kunt de URL bepalen door alles na de host (en optionele poort) in de URL van een bestand te verwijderen en /robots.txt toe te voegen. Je kunt het robots.txt-bestand openen in je browser (indien aanwezig). Robots.txt-bestanden worden niet overgenomen door subdomeinen of bovenliggende domeinen en een bepaalde pagina kan worden beïnvloed door slechts één robots.txt-bestand. Enkele voorbeelden:

Bestands-URL	URL van robots.txt die van invloed kan zijn op dat bestand
http://example.com/home	http://example.com/robots.txt
https://m.de.example.com/een/pagina/hier/mijnpagina	https://m.de.example.com/robots.txt
https://example.com?pageid=234#mijnanker	https://example.com/robots.txt
https://images.example.com/bloemen/narcissen.png	https://images.example.com/robots.txt

Nagaan welk robots.txt-bestand van invloed is op een pagina of afbeelding

Zo vind je de URL van het robots.txt-bestand dat van invloed is op een pagina of afbeelding:

Zoek de exacte URL van de pagina of afbeelding. Klik voor een afbeelding in de Google Chrome-browser met de rechtermuisknop en selecteer Afbeeldings-URL kopiëren.
Verwijder het einde van de URL na het top-level domein (bijvoorbeeld .com, .org, .co.il) en voeg aan het eind /robots.txt toe. Het robots.txt-bestand voor https://images.example.com/bloemen/narcissen.png is dus https://images.example.com/robots.txt
Open de URL in je browser om te checken of de URL bestaat. Als je browser het bestand niet kan openen, bestaat het bestand niet.

Testen of Google wordt geblokkeerd door robots.txt

Als je wilt testen of een specifieke URL wordt geblokkeerd door een robots.txt-bestand, test je de beschikbaarheid van de URL met de URL-inspectietool.
Als je een specifieke robots.txt-regel wilt testen op een bestand dat nog niet op het web staat, of als je een nieuwe regel wilt testen, gebruik je een robots.txt-tester van derden.

Meer informatie

Wat is een robots.txt-bestand en hoe wordt het gebruikt?
Een robots.txt-bestand implementeren

Was dit nuttig?

Hoe kunnen we dit verbeteren?