Het robots.txt-rapport geeft aan welke robots.txt-bestanden Google heeft gevonden voor de top 20 hosts op je site, de laatste keer dat ze zijn gecrawld en welke waarschuwingen of fouten zijn gevonden. Via het rapport kun je ook een nieuwe crawl van een robots.txt-bestand aanvragen voor noodsituaties.
Dit rapport is alleen beschikbaar voor property's op domeinniveau. Dit houdt het volgende in:
- Een domeinproperty (zoals example.com of m.example.com), of
- Een property met een URL-voorvoegsel zonder pad, zoals https://example.com/, maar niet https://example.com/pad/.
Je robots.txt-bestanden en crawlstatus bekijken
In een domeinproperty bevat het rapport robots.txt-bestanden van de top 20 hosts in die property.
Voor elk robots.txt-bestand dat door Search Console is gecheckt, kun je de volgende informatie bekijken:
- Bestandspad: De volledige URL waar Google heeft gecheckt op de aanwezigheid van een robots.txt-bestand. Een URL wordt alleen in het rapport getoond als deze in de afgelopen 30 dagen de status Opgehaald of Niet opgehaald heeft. Ga naar Locatie van robots.txt-bestanden.
- Status van ophalen: De status van het laatste ophaalverzoek voor dit bestand. De volgende waarden zijn mogelijk:
- Niet opgehaald - Niet gevonden (404): Er is een 404-fout (het bestand bestaat niet) opgetreden toen dit bestand werd aangevraagd. Als je een robots.txt-bestand op de vermelde URL hebt gepost maar deze fout aantreft, inspecteer je de URL om na te gaan of er beschikbaarheidsproblemen zijn. Een bestand met de status Niet gevonden (404) gedurende 30 dagen wordt niet meer getoond in het rapport (Google blijft dit wel op de achtergrond controleren). Geen robots.txt-bestand hebben is geen probleem. Dit betekent dat Google alle URL's op je site kan crawlen. Meer informatie over hoe Google zich gedraagt bij een robots.txt-fout
- Niet opgehaald - Elke andere reden: Er is een ander probleem opgetreden bij het aanvragen van dit bestand. Ga naar de lijst met indexeringsproblemen.
- Opgehaald: De laatste crawlpoging heeft een robots.txt-bestand geretourneerd. Problemen die worden gevonden bij het parseren van het bestand, vind je in de kolom Problemen. Google negeert de regels met problemen en gebruikt de regels die kunnen worden geparseerd.
- Gecheckt op: Wanneer Google voor het laatst heeft geprobeerd deze URL te crawlen, in de lokale tijd.
- Grootte: De grootte van het opgehaalde bestand in bytes. Als de laatste ophaalpoging is mislukt, is dit veld leeg.
- Problemen: De tabel toont het aantal parseerproblemen in de bestandsinhoud toen het bestand voor het laatst werd opgehaald. Fouten voorkomen dat een regel wordt gebruikt. Waarschuwingen voorkomen niet dat een regel wordt gebruikt. Lees hoe Google zich gedraagt bij een robots.txt-fout. Gebruik een robots.txt-validator om parseerproblemen op te lossen.
De laatst opgehaalde versie bekijken
Je kunt de laatst opgehaalde versie van een robots.txt-bestand checken door erop te klikken in de lijst met bestanden in het rapport. Als het robots.txt-bestand fouten of waarschuwingen bevat, worden deze gemarkeerd in de getoonde bestandsinhoud. Je kunt met de pijltoetsen door de fouten en waarschuwingen bladeren.
Eerder opgehaalde versies bekijken
Als je ophaalverzoeken voor een bepaald robots.txt-bestand in de afgelopen 30 dagen wilt bekijken, klik je op het bestand in de lijst met bestanden in het rapport en daarna op Versies. Klik op de versie om de bestandsinhoud van die versie te bekijken. Een verzoek wordt alleen opgenomen in de geschiedenis als het opgehaalde bestand of ophaalresultaat verschilt van het vorige verzoek voor het ophalen van bestanden.
Als Google bij de laatste ophaalpoging een ophaalfout tegenkomt, gebruikt Google de laatst opgehaalde versie maximaal 30 dagen zonder fouten.
Een nieuwe crawl aanvragen
Je kunt een nieuwe crawl van een robots.txt-bestand aanvragen als je een fout hebt verholpen of een belangrijke wijziging hebt aangebracht.
Wanneer je een nieuwe crawl moet aanvragen
Over het algemeen hoef je geen nieuwe crawl van een robots.txt-bestand aan te vragen, omdat Google je robots.txt-bestanden vaak opnieuw crawlt. In de volgende gevallen kun je echter een nieuwe crawl van je robots.txt-bestand aanvragen:
- Je hebt je robots.txt-regels gewijzigd om de blokkering van enkele belangrijke URL's op te heffen en wilt Google dit snel laten weten (houd er rekening mee dat dit niet garandeert dat niet meer geblokkeerde URL's onmiddellijk opnieuw worden gecrawld).
- Je hebt een ophaalfout of een andere kritieke fout verholpen.
Een nieuwe crawl aanvragen
Als je een nieuwe crawl wilt aanvragen, selecteer je het icoon Meer instellingen naast een bestand in de lijst met robots-bestanden en klik je op Een nieuwe crawl aanvragen.
Websites van hostingservices voor websites
Als je website wordt gehost op een hostingservice voor websites, is het misschien niet makkelijk om je robots.txt-bestand te bewerken. In dat geval neem je de documentatie van de sitehost door over hoe je kunt voorkomen dat Google specifieke pagina's crawlt of indexeert.
Locatie van robots.txt-bestanden
Terminologie:
- Een protocol (ook wel een schema genoemd) is HTTP of HTTPS.
- Een host is alles in de URL na het protocol (http:// of https://) tot het pad. De host m.de.example.com impliceert dus 3 mogelijke hosts: m.de.example.com, de.example.com en example.com. Elke host kan een eigen robots.txt-bestand hebben.
- Een oorsprong is het protocol plus de host. Bijvoorbeeld: https://example.com/ of https://m.example.co.es/
Volgens RFC 9309 moet het robots.txt-bestand in de root van elke protocol- en hostcombinatie van je site staan.
- Search Console kiest de top 20 hosts, gesorteerd op crawlsnelheid. Voor elk domein kan het rapport maximaal 2 oorsprongen bevatten, wat betekent dat de tabel maximaal 40 rijen kan tonen. Als je de robots.txt-URL voor een van je hosts niet kunt vinden, maak je een domeinproperty voor het ontbrekende subdomein.
- Search Console checkt voor elke host 2 URL's:
- http://<host>/robots.txt
- https://<host>/robots.txt
- Als het robots.txt-bestand op de gevraagde URL 30 dagen lang als Niet gevonden wordt gemeld, toont Search Console de URL niet in dit rapport, hoewel Google de URL op de achtergrond blijft controleren. Voor alle andere resultaten merkt het rapport de URL aan als gecontroleerd.
Voor een property met URL-voorvoegsel op hostniveau (zoals https://example.com/) checkt Search Console maar één oorsprong voor die property. Voor de property https://example.com checkt Search Console dus alleen https://example.com/robots.txt en niet http://example.com/robots.txt of https://m.example.com/robots.txt.
Algemene taken
Een robots.txt-bestand bekijken
Als je een robots.txt-bestand in dit rapport wilt openen, klik je op het bestand in de lijst met robots.txt-bestanden. Klik op Live robots.txt openen om het bestand in je browser te openen.
Je kunt elk robots.txt-bestand op internet openen in je browser. Hieronder zie je welke URL je moet bezoeken.
Waar de robots.txt-bestanden zich kunnen bevinden
Een robots.txt-bestand bevindt zich op de root van een protocol en domein. Je kunt de URL bepalen door alles na de host (en optionele poort) in de URL van een bestand te verwijderen en /robots.txt toe te voegen. Je kunt het robots.txt-bestand openen in je browser (indien aanwezig). Robots.txt-bestanden worden niet overgenomen door subdomeinen of bovenliggende domeinen en een bepaalde pagina kan worden beïnvloed door slechts één robots.txt-bestand. Enkele voorbeelden:
Bestands-URL | URL van robots.txt die van invloed kan zijn op dat bestand |
---|---|
http://example.com/home | http://example.com/robots.txt |
https://m.de.example.com/some/page/here/mypage | https://m.de.example.com/robots.txt |
https://example.com?pageid=234#mijnanker | https://example.com/robots.txt |
https://images.example.com/flowers/daffodil.png | https://images.example.com/robots.txt |
Nagaan welk robots.txt-bestand van invloed is op een pagina of afbeelding
Zo vind je de URL van het robots.txt-bestand dat van invloed is op een pagina of afbeelding:
- Zoek de exacte URL van de pagina of afbeelding. Klik voor een afbeelding in de Google Chrome-browser met de rechtermuisknop en selecteer Afbeeldings-URL kopiëren.
- Verwijder het einde van de URL na het top-level domein (bijvoorbeeld .com, .org, .co.il) en voeg aan het eind /robots.txt toe. Het robots.txt-bestand voor https://images.example.com/bloemen/narcissen.png is dus https://images.example.com/robots.txt
- Open de URL in je browser om te checken of de URL bestaat. Als je browser het bestand niet kan openen, bestaat het bestand niet.
Testen of Google wordt geblokkeerd door robots.txt
- Als je wilt testen of een specifieke URL wordt geblokkeerd door een robots.txt-bestand, test je de beschikbaarheid van de URL met de URL-inspectietool.
- Als je een ontwikkelaar bent, check en bouw je de opensource robots.txt-bibliotheek van Google. Deze wordt ook gebruikt op Google Zoeken. Je kunt deze tool gebruiken om robots.txt-bestanden lokaal op je computer te testen.
Meer informatie
- Wat is een robots.txt-bestand en hoe wordt het gebruikt?
- Een robots.txt-bestand implementeren