Rapport Crawlfouten (websites)

Het rapport Crawlfouten voor websites bevat details over de site-URL's die Google niet kon crawlen of die een HTTP-foutcode hebben geretourneerd.

Het rapport Crawlfouten openen

 

Zoekt u het rapport Crawlstatus voor apps?

 

Het rapport bestaat uit twee hoofdgedeelten:

  • Sitefouten: in dit gedeelte worden de belangrijkste problemen vermeld waardoor gedurende de afgelopen 90 dagen Googlebot geen toegang tot uw gehele site kon krijgen (klik op een vakje om een diagram weer te geven).
     
  • URL-fouten: in dit gedeelte worden specifieke fouten vermeld die Google heeft aangetroffen tijdens het crawlen van bepaalde desktop- of telefoonpagina's. Elk onderdeel van de URL-foutenrapportage komt overeen met de verschillende crawl-mechanismen die Google gebruikt om toegang tot uw pagina's te krijgen. De vermelde fouten zijn specifiek voor dat soort pagina's.

Overzicht van Sitefouten

Voor een goed werkende site worden er in het gedeelte Sitefouten van het rapport Crawlfouten geen fouten weergegeven (dit geldt voor de meeste sites die door de crawlers van Google worden bezocht). Als Google een aanzienlijk aantal sitefouten detecteert, proberen we u hiervan op de hoogte te stellen in de vorm van een bericht, ongeacht de grootte van uw site.

Wanneer u voor het eerst de pagina Crawlfouten bezoekt, wordt in het gedeelte Sitefouten een snelle statuscode weergegeven naast de drie fouttypen: DNS, serverconnectiviteit en robots.txt fetchen. Als de codes geen groen vinkje weergeven, kunt u op het vakje klikken om een diagram met de crawldetails van de afgelopen 90 dagen te bekijken.

Hoge foutenpercentages

Als uw site voor een van de drie categorieën een foutenpercentage van 100% weergeeft, is uw site waarschijnlijk down of op een of andere manier niet goed geconfigureerd. Dit kan te wijten zijn aan een aantal mogelijkheden die u kunt onderzoeken:

  • Controleer of een reorganisatie van uw site de toegangsrechten voor een gedeelte van uw site niet heeft gewijzigd.
  • Als uw site is gereorganiseerd, moet u controleren of externe links nog werken.
  • Bekijk eventuele nieuwe scripts om te zien of ze niet herhaaldelijk fouten genereren.
  • Zorg ervoor dat alle mappen aanwezig zijn en niet per ongeluk verplaatst of verwijderd zijn.
Als geen van deze situaties van toepassing zijn op uw site, kan het foutenpercentage een tijdelijke piek zijn of het gevolg zijn van externe oorzaken (iemand heeft bijvoorbeeld een link naar niet-bestaande pagina's gemaakt). Het is dus mogelijk dat er helemaal niets aan de hand is. Als we echter zien dat er een ongewoon groot aantal fouten voor uw site is, laten we u dat weten, zodat u het kunt onderzoeken.

Lage foutenpercentages

Als uw site een foutenpercentage van minder dan 100% voor een van de categorieën weergeeft, kan dit gewoon wijzen op een tijdelijke toestand, maar het kan ook betekenen dat uw site overbelast of niet goed geconfigureerd is. Het is zinvol deze kwesties verder te onderzoeken of een vraag te stellen op ons forum. Wij kunnen u hiervan op de hoogte stellen, zelfs als het totale foutenpercentage zeer laag is. In onze ervaring moet een goed geconfigureerde website geen fouten in deze categorieën genereren.

Typen sitefout

De volgende fouten worden vermeld in het gedeelte Site van het rapport:

DNS-fouten

Wat zijn DNS-fouten?

Een DNS-fout houdt in dat Googlebot niet kan communiceren met de DNS-server, hetzij omdat de server down is, hetzij omdat er een probleem is met de DNS-routering naar uw domein. Hoewel de meeste DNS-waarschuwingen of -fouten geen invloed hebben op de toegankelijkheid van uw site voor Googlebot, kunnen ze wijzen op hoge latentie, wat weer een negatieve invloed heeft op uw gebruikers.

DNS-fouten oplossen

  • Zorg ervoor dat Google uw site kan crawlen.
    Gebruik 'Fetchen als Google' op een belangrijke pagina, zoals uw startpagina. Als dit de content van uw startpagina zonder problemen retourneert, kunt u ervan uitgaan dat Google toegang tot uw site heeft.
  • Neem contact op met uw DNS-provider als de DNS-fouten zich blijven voordoen of zich herhalen.
    In veel gevallen zijn uw DNS-provider en uw internethost dezelfde. 
  • Configureer uw server zo dat deze op niet-bestaande hostnamen een HTTP-foutcode, zoals 404 of 500, retourneert.
    Een website als example.com kan worden geconfigureerd met een jokerteken-DNS om te kunnen reageren op verzoeken voor foo.example.com, made-up-name.example.com en elk ander subdomein. Dit is bijvoorbeeld handig wanneer een site met door gebruikers gegenereerde content elk account een eigen domein wil bieden (http://www.example.com/user). In sommige gevallen kan deze configuratie ertoe leiden dat content onnodig wordt gedupliceerd via verschillende hostnamen en kan dit ook invloed hebben op het crawlen door Googlebot.

Lijst met DNS-fouten

Type fout Beschrijving
DNS-time-out

Googlebot heeft geen toegang tot uw site kunnen krijgen omdat uw DNS-server uw hostnaam (www.example.com) niet herkende.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Google toegang kan krijgen tot uw site.

Neem contact op met uw domeinhost om te controleren of uw site correct is ingesteld en uw server verbinding heeft met internet.

DNS-lookup

Googlebot heeft geen toegang tot uw site kunnen krijgen omdat uw DNS-server uw hostnaam (www.example.com) niet herkende.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Google toegang kan krijgen tot uw site.

Neem contact op met uw domeinhost om te controleren of uw site correct is ingesteld en uw server verbinding heeft met internet.

Serverfouten

Wat is een serverfout?

Wanneer u dit soort fouten voor uw URL's tegenkomt, betekent het dat Googlebot geen toegang tot uw URL kon krijgen, dat het verzoek resulteerde in een time-out of dat uw site bezet was. Hierdoor heeft Googlebot het verzoek niet kunnen uitvoeren. Google kan de site niet bereiken omdat de server te langzaam reageert of omdat Google door uw site geblokkeerd wordt. Hierdoor heeft Google het verzoek niet kunnen uitvoeren.

Problemen met de serverconnectiviteit oplossen

  • Verminder overmatig laden voor dynamische paginaverzoeken.
    Een site levert dynamische content als deze dezelfde content voor meerdere URL's levert (www.example.com/shoes.php?color=red&size=7 geeft bijvoorbeeld dezelfde content weer als www.example.com/shoes.php?size=7&color=red).  Dynamische pagina's reageren soms niet snel genoeg, waardoor problemen met time-outs kunnen optreden. Ook kan het gebeuren dat de server de status overbelast retourneert om Googlebot te vragen de site langzamer te crawlen. We raden u aan parameters kort te houden en ze zo min mogelijk te gebruiken. Als u zeker weet hoe parameters op uw site werken, kunt u Google vertellen hoe we met deze parameters moeten omgaan.
  • Controleer of de hostingserver van uw site niet down, overbelast of verkeerd geconfigureerd is.
    Neem contact op met uw webhost als de verbindings-, time-out- of reactieproblemen aanhouden en overweeg het vermogen van uw site om verkeer te verwerken te verbeteren.
  • Controleer of u niet onbedoeld Google blokkeert.
    Het kan zijn dat u Google blokkeert als gevolg van een probleem op systeemniveau, zoals een probleem met de DNS-configuratie, een verkeerd geconfigureerde firewall of een verkeerd geconfigureerd DoS-beveiligings- of contentmanagementsysteem. Beveiligingssystemen vormen een belangrijk onderdeel van goede hosting en zijn vaak geconfigureerd om automatisch ongewoon veel serververzoeken te blokkeren. Omdat Googlebot echter vaak meer verzoeken doet dan een menselijke gebruiker, kan het zijn dat deze beveiligingssystemen worden ingeschakeld en voorkomen dat Googlebot uw website crawlt. Als u dergelijke problemen wilt oplossen, gaat u na welk deel van de infrastructuur van uw website Googlebot blokkeert en verwijdert u deze blokkering. Het kan zijn dat u de firewall niet zelf beheert. Als dit het geval is, kunt u contact met uw hostingprovider opnemen.
  • Beheer het sitecrawlen en indexeren door zoekmachines met verstand.
    Sommige webmasters zorgen er opzettelijk voor dat Googlebot hun website niet kan bereiken, mogelijk via een firewall, zoals hierboven is beschreven. In die gevallen is het meestal niet de bedoeling Googlebot volledig te blokkeren, maar om te bepalen hoe de site wordt gecrawld en geïndexeerd. Als dit voor u het geval is, controleert u het volgende: Als u wilt wijzigen hoe vaak Googlebot uw site crawlt, kunt u een verzoek indienen om de crawlfrequentie van Googlebot te wijzigen. Hostingproviders kunnen ook het eigendom van IP-adressen verifiëren.

Fouten met de serverconnectiviteit

Type fout Beschrijving
Time-out

Er is een time-out van de server opgetreden tijdens het wachten op het verzoek.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Google toegang kan krijgen tot uw site.

Uw server is mogelijk overbelast of onjuist geconfigureerd. Als het probleem zich blijft voordoen, neemt u contact op met uw hostingprovider.

Ingekorte berichtkoppen

Google heeft verbinding kunnen maken met uw server, maar de verbinding is verbroken voordat de berichtkoppen volledig zijn verzonden. Probeer het later opnieuw.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Google toegang kan krijgen tot uw site.

Uw server is mogelijk overbelast of onjuist geconfigureerd. Als het probleem zich blijft voordoen, neemt u contact op met uw hostingprovider.

Verbinding opnieuw ingesteld

Uw server heeft het verzoek van Google verwerkt, maar retourneert geen content omdat de verbinding met de server opnieuw is ingesteld. Probeer het later opnieuw.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Google toegang kan krijgen tot uw site.

Uw server is mogelijk overbelast of onjuist geconfigureerd. Als het probleem zich blijft voordoen, neemt u contact op met uw hostingprovider.

Ingekort antwoord

Uw server heeft de verbinding verbroken voordat we een volledige reactie hebben ontvangen, en het hoofdgedeelte van de reactie lijkt te zijn afgesneden.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Google toegang kan krijgen tot uw site.

Uw server is mogelijk overbelast of onjuist geconfigureerd. Als het probleem zich blijft voordoen, neemt u contact op met uw hostingprovider.

Verbinding geweigerd

Google kan geen toegang krijgen tot uw site omdat uw server de verbinding heeft geweigerd. Het is mogelijk dat uw hostingprovider Googlebot blokkeert, of dat er een probleem is met de configuratie van de firewall.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Google toegang kan krijgen tot uw site.

Uw server is mogelijk overbelast of onjuist geconfigureerd. Als het probleem zich blijft voordoen, neemt u contact op met uw hostingprovider.

Verbinding mislukt

Google kan geen verbinding maken met uw server omdat het netwerk onbereikbaar of niet beschikbaar is.

Uw server is mogelijk overbelast of onjuist geconfigureerd. Als het probleem zich blijft voordoen, neemt u contact op met uw hostingprovider.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Google toegang kan krijgen tot uw site.

Time-out voor verbinden

Google kan geen verbinding maken met uw server.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Googlebot toegang kan krijgen tot uw site.

Controleer of uw server verbinding heeft met internet. Uw server is mogelijk overbelast of onjuist geconfigureerd. Als het probleem zich blijft voordoen, neemt u contact op met uw hostingprovider.

Geen reactie

Google heeft verbinding gemaakt met uw server, maar de verbinding is verbroken voordat de server gegevens heeft verzonden.

U kunt Fetchen als Google gebruiken om te controleren of Googlebot uw site kan crawlen. Wanneer Fetchen als Google de content van uw startpagina zonder problemen weergeeft, kunt u er over het algemeen van uitgaan dat Googlebot toegang kan krijgen tot uw site.

Uw server is mogelijk overbelast of onjuist geconfigureerd. Als het probleem zich blijft voordoen, neemt u contact op met uw hostingprovider.

Problemen met robots

Wat is een robots-fout?

Dit is een fout bij het ophalen van het robots.txt-bestand van uw site. Voordat Googlebot uw site crawlt, en ongeveer één keer per dag daarna, haalt Googlebot uw robots.txt-bestand op om te bepalen welke pagina's niet gecrawld moeten worden. Als er een robots.txt-bestand is, maar dit niet bereikbaar is (oftewel: als er geen HTTP-statuscode 200 of 404 wordt geretourneerd), stellen we het crawlen uit om te voorkomen dat we niet-toegestane URL's crawlen. Als dit gebeurt, keert Googlebot terug op uw site om deze te crawlen zodra we toegang kunnen krijgen tot uw robots.txt-bestand. Meer informatie over het protocol voor het uitsluiten van robots.

Fouten met het robots.txt-bestand oplossen

  • Een robots.txt-bestand is niet altijd nodig.
    U heeft alleen een robots.txt-bestand nodig als uw site content bevat waarvan u niet wilt dat de zoekmachines deze indexeren. Als u wilt dat zoekmachines alles op uw site indexeren, heeft u geen robots.txt-bestand nodig—zelfs geen leeg bestand. Als u geen robots.txt-bestand heeft, retourneert uw server een 404-code als Googlebot dit bestand probeert op te vragen en zetten we het crawlen van uw site voort. Geen probleem.
  • Zorg ervoor dat Google toegang heeft tot uw robots.txt-bestand.
    Het kan zijn dat uw server een 5xx-fout (onbereikbaar) retourneert wanneer we uw robots.txt-bestand proberen op te halen. Controleer of uw hostingprovider Googlebot niet blokkeert.  Als u een firewall heeft, moet u ervoor zorgen dat deze zo is geconfigureerd dat Google niet wordt geblokkeerd.

Overzicht van URL-fouten

Het gedeelte URL-fouten van het rapport is verdeeld in categorieën die de top 1000 URL-fouten weergeven specifiek voor die categorie. Niet elke fout die u in dit gedeelte ziet, vereist aandacht van uw kant, maar het is belangrijk dat u dit gedeelte geregeld controleert op fouten die een negatieve invloed op uw gebruikers en op Google-crawlers kunnen hebben. We hebben dit makkelijker gemaakt voor u door de kwesties te rangschikken met de belangrijkste bovenaan. Deze rangschikking is gebaseerd op factoren, zoals het aantal fouten en het aantal pagina's die naar de URL verwijzen. U kunt het volgende overwegen:

  • Corrigeer 'Niet gevonden'-fouten voor belangrijke URL's met 301-omleidingen. Hoewel het normaal is 'Niet gevonden'-fouten (404) te hebben, moeten fouten aangepakt worden voor belangrijke pagina's waar andere websites naar linken, oudere URL's in uw sitemap die sindsdien verwijderd zijn, verkeerd gespelde URL's voor belangrijke pagina of URL's van populaire pagina's die niet meer op uw site bestaan. Op deze manier hebben Google en uw bezoekers toegang tot de informatie die u belangrijk vindt.
  • Update uw sitemaps.  Verwijder oude URL's van uw sitemaps. Als u nieuwe sitemaps toevoegt die de oudere moeten vervangen, moet de oude sitemap worden verwijderd (niet omgeleid naar de nieuwe sitemap).  
  • Houd omleidingen simpel en kort.  Als u een aantal URL-omleidingen in een reeks heeft (bijvoorbeeld paginaA > paginaB > paginaC > paginaD), kan het moeilijk zijn voor Googlebot om deze reeks te volgen en te interpreteren.  Probeer de 'sprongen' tot een minimum te beperken.  Meer informatie over Niet gevolgd.

URL-foutdetails weergeven

Er zijn verschillende manieren om URL-fouten weer te geven:

  • Klik op Download voor een lijst met de top 1000 fouten voor een specifieke soort crawler (bijv. desktop, smartphone).
  • Gebruik het filter boven de tabel om specifieke URL's te vinden.
  • Geef de foutdetails weer door op de link van individuele URL's of app-URI's te klikken.
Foutdetails voor desktop- of telefoon-URL's geven zowel statusinformatie over een fout weer als een lijst met pagina's die naar die URL verwijzen en een link naar Fetchen als Google, zodat u de problemen met de URL kunt oplossen.

Fouten als verholpen markeren

Als u het probleem met een specifiek item heeft opgelost, kunt u dat item verbergen in de lijst. U kunt dit afzonderlijk of in bulk doen. Vink het selectievakje naast de URL aan en klik op Markeren als verholpen. De URL wordt verwijderd uit de lijst.

Als het probleem onopgelost blijft, zal de URL de volgende keer dat Google uw site crawlt, opnieuw in de lijst verschijnen, zelfs als u het probleem als verholpen heeft gemarkeerd.

Typen URL-fout

Veelvoorkomende URL-fouten
Type fout Beschrijving
Serverfout

Wanneer u dit soort fouten voor uw URL's tegenkomt, betekent het dat Googlebot geen toegang tot uw URL kon krijgen, dat het verzoek resulteerde in een time-out of dat uw site bezet was. Googlebot heeft het verzoek niet kunnen uitvoeren.

Meer informatie over fouten met de serverconnectiviteit.

Soft 404

Wanneer iemand een pagina aanvraagt die niet bestaat, retourneert de server gewoonlijk een 404-fout (Niet gevonden). Deze HTTP-reactiecode laat browsers en zoekmachines weten dat de pagina niet bestaat. Als gevolg hiervan wordt de content van de pagina (indien aanwezig) niet gecrawld of geïndexeerd door zoekmachines.

Een zachte 404 treedt op wanneer uw server een echte pagina retourneert voor een URL die eigenlijk niet op uw site bestaat. Dit gebeurt meestal als uw server onjuiste of niet-bestaande URL's als 'OK' behandelt en de gebruiker naar een geldige pagina omleidt, zoals een startpagina of een 'aangepaste' 404-pagina.  

Dit kan problemen opleveren, omdat zoekmachines mogelijk veel tijd besteden aan het crawlen en indexeren van niet-bestaande, vaak dubbele URL's op uw site. Vanwege de tijd die Googlebot besteedt op niet-bestaande pagina's, kan dit het crawlen uw site negatief beïnvloed, omdat uw echte, unieke URL's mogelijk niet zo snel gevonden of zo vaak bezocht worden.

We raden u aan uw server zo te configureren dat deze altijd een reactiecode 404 (Niet gevonden) of 410 (Verdwenen) retourneert als reactie op een verzoek om een niet-bestaande pagina. U kunt de gebruikerservaring verbeteren door een aangepaste 404-pagina in te stellen die wordt weergegeven wanneer een 404-reactiecode wordt geretourneerd. U kunt bijvoorbeeld een pagina maken met een lijst met uw populairste pagina's of een link naar uw startpagina of een feedbacklink. Het is echter belangrijk te onthouden dat het niet voldoende is alleen een pagina te maken waarop een 404-bericht wordt weergegeven. U moet ook de juiste HTTP-reactiecode 404 of 410 retourneren.

404

Google ontdekt content door links van de ene pagina naar de andere te volgen. Over het algemeen wordt de statusfout 'Niet gevonden' (meestal een HTTP-statuscode 404) weergegeven wanneer Googlebot een pagina probeert te bezoeken die niet bestaat, mogelijk omdat u de pagina heeft verwijderd of hernoemd zonder de oude URL naar een nieuwe pagina door te verwijzen of als gevolg van een typefout in een link.

Omgaan met 'Niet gevonden'-fouten

Over het algemeen hebben 404-fouten geen gevolgen voor de positie van uw site op Google en kunt u ze veilig negeren. Meestal worden ze veroorzaakt door typefouten, een verkeerde configuratie (bijvoorbeeld voor links die automatisch worden gegenereerd door een contentmanagementsysteem) of door de toegenomen inspanningen van Google om links in ingesloten content, zoals JavaScript, te herkennen en te crawlen.  Hieronder vindt u enkele aanwijzingen die u kunnen helpen bij uw onderzoek:

  • Kijk waar de ongeldige links vandaan komen in het gedeelte Gekoppeld vanaf deze pagina's. U komt hier door op de URL te klikken.
  • Corrigeer of verwijder links die van uw eigen site komen.
  • Leid bestemmingsverkeer om van de verkeerd gespelde links naar andere sites met een 301-omleiding.
    Het verkeerd spellen van een legitieme URL (www.example.com/redshuz in plaats van www.example.com/redshoes) komt bijvoorbeeld waarschijnlijk doordat iemand naar uw site wilde gaan, maar een typefout heeft gemaakt. In dit geval kunt u de verkeerd gespelde URL in uw server-configuratie opnemen en een a 301-omleiding  naar de juiste URL maken. U kunt ook contact opnemen met de webmaster van een site met een verkeerde link met het verzoek de link te corrigeren of te verwijderen.

404-fouten zijn een volstrekt normaal (en op veel manieren wenselijk) onderdeel van internet. Het is waarschijnlijk onmogelijk alle links naar uw site te beheren of elke 404-fout op te lossen die in Search Console staat geregistreerd. Controleer in plaats daarvan de problemen die bovenaan staan, corrigeer deze als dat mogelijk is en ga verder met uw andere werk.

De gevallen waarin u een 404-statuscode retourneert

Denk er bij het verwijderen van een pagina van uw site over na of de content ergens anders heen wordt verplaatst of dat u dit soort content niet langer op uw site wilt hebben. 

  • Als u die content verplaatst naar een nieuwe URL, moet u de oude URL omleiden naar de nieuwe URL. Op die manier worden gebruikers die op de oude URL terechtkomen en naar die content zoeken automatisch omgeleid naar iets dat relevant is voor hun zoekopdracht.
  • Wanneer u de content volledig verwijdert en niet met nieuwe soortgelijke content vervangt, moet de oude URL een 404- of een 410-code retourneren. Google behandelt 410-codes (Verdwenen) hetzelfde als 404-codes (Niet gevonden). 

Het retourneren van een andere code dan 404 of 410 voor een niet-bestaande pagina (of gebruikers omleiden naar een andere pagina, zoals de startpagina, in plaats van een 404-code retourneren) kan problematisch zijn. Zulke pagina's heten zachte 404's en kunnen verwarrend zijn voor zowel de gebruikers als de zoekmachines.

Onverwachte 404-fouten

In Crawlfouten kunt u af en toe 404-fouten zien voor URL's die volgens u niet bestaan op uw eigen site of op internet. Deze onverwachte URL's kunnen worden gegenereerd wanneer Googlebot links probeert te volgen die zijn gevonden in JavaScript, Flash-bestanden of andere ingesloten content.

Zo kan uw site de volgende code gebruiken om het downloaden van bestanden te volgen in Google Analytics:

<a href="helloworld.pdf"
  onClick="_gaq.push(['_trackPageview','/download-helloworld']);">
  Hello World PDF</a>

Wanneer Googlebot deze bijvoorbeeld tegenkomt, kan het zijn dat de URL http://www.example.com/download-helloworld wordt gecrawld, terwijl dat geen echte pagina is. In dit geval kan de link worden weergegeven als 404-fout (Niet gevonden) in de functie Crawlfouten in Search Console.

Google streeft ernaar dergelijke problemen te detecteren en te verhelpen zodat ze niet meer worden weergegeven in Crawlfouten. 

Toegang geweigerd

Over het algemeen ontdekt Google content door links van de ene naar de andere pagina te volgen. Googlebot moet toegang kunnen krijgen tot een pagina om deze te crawlen. Als u onverwachte fouten met betrekking tot geweigerde toegang ziet, kan dat een van de volgende redenen hebben:

  • Googlebot krijgt geen toegang tot een URL op uw site omdat gebruikers van uw site moeten inloggen om alle of een deel van uw content te zien.
  • Uw robots.txt-bestand voorkomt dat Google toegang krijgt tot uw hele site of tot afzonderlijke URL's of directory's.
  • Uw server vereist dat gebruikers zich identificeren via een proxy of uw hostingprovider kan de toegang van Google tot uw site blokkeren.

De oplossing:

  • Test of uw robots.txt-bestand werkt zoals verwacht en Google niet blokkeert. Met de testtool voor robots.txt kunt u precies zien hoe Googlebot de content van uw robots.txt-bestand interpreteert. De user-agent van Google is Googlebot. 
  • Gebruik Fetchen als Google om te bekijken hoe Googlebot uw site ziet. Dit kan erg handig zijn wanneer u problemen met de content of vindbaarheid van uw site in de zoekresultaten moet oplossen.
Niet gevolgd

Niet-gevolgd-fouten geven de URL's weer die Google niet volledig heeft kunnen volgen, samen met informatie over de reden hiervan. Hieronder vindt u enkele redenen waarom Googlebot niet in staat was om URL's op uw site te volgen:

Flash, JavaScript, actieve content

Sommige functies, zoals JavaScript, cookies, sessie-ID's, frames, DHTML of Flash kunnen het zoekmachines moeilijk maken uw site te crawlen. Controleer het volgende:

  • Gebruik een tekstbrowser, zoalsLynx, om uw site te onderzoeken, aangezien veel zoekmachines uw site zien zoals Lynx deze ziet. Als uw site door het gebruik van functies zoals JavaScript, cookies, sessie-ID's, frames, DHTML en Flash niet meer zichtbaar is in een tekstbrowser, is de kans groot dat zoekmachines moeite hebben met het crawlen van uw site.
  • Gebruik Fetchen als Google om te kijken hoe Google uw site ziet.
  • Als u dynamische pagina's gebruikt waarbij de URL bijvoorbeeld het teken '?' bevat, moet u er rekening mee houden dat niet alle zoekmachines dynamische en statische pagina's crawlen. We raden u aan parameters kort te houden en ze zo min mogelijk te gebruiken. Als u zeker weet hoe parameters op uw site werken, kunt u Google vertellen hoe we met deze parameters moeten omgaan.

Omleidingen

  • Gebruik de HTTP-statuscode (301 Permanent verplaatst) als u blijvend met een omleiding van de ene pagina naar de andere werkt.
  • Gebruik zo veel mogelijk absolute in plaats van relatieve links. (Als u bijvoorbeeld een link opneemt naar een andere pagina op uw site, kunt u beter verwijzen naar www.example.com/mijnpagina.html dan naar mijnpagina.html.)
  • Probeer elke pagina op uw site bereikbaar te maken vanaf ten minste één statische tekstlink. Verklein feitelijk het aantal omleidingen dat nodig is om een link te volgen van de ene pagina naar de andere.
  • Controleer of de omleidingen naar de juiste pagina's verwijzen. Soms ontdekken we omleidingen die naar zichzelf verwijzen (wat leidt tot een verwijzingslus) of naar ongeldige URL's.
  • Neem geen omgeleide URL's op in uw sitemaps.
  • Houd uw URL's zo kort mogelijk. Zorg ervoor dat u niet automatisch informatie toevoegt aan de URL (bijvoorbeeld een sessie-ID) wanneer u een omleiding instelt.
  • Zorg ervoor dat u zoekrobots uw site laat crawlen zonder sessie-ID's en zonder argumenten die het klikgedrag van bezoekers vastleggen.
DNS-fout

Wanneer deze fout wordt weergegeven voor uw URL betekent het dat Googlebot niet met de DNS-server kon communiceren of dat de server geen gegevens bevatte voor uw site.

Lees meer over DNS-fouten.

URL-fouten die zich alleen voordoen op mobiels (smartphones)
Fout Beschrijving
Onjuiste omleidingen

De fout Onjuiste omleiding wordt weergegeven in het gedeelte URL-fouten van de pagina Crawlen > Crawlfouten onder het tabblad Smartphones.

Sommige websites maken gebruik van afzonderlijke URL's voor desktop- en smartphonegebruikers. Desktoppagina's zijn in dit geval zodanig geconfigureerd dat smartphonegebruikers worden omgeleid naar de mobiele site (bijv. m.example.com). Een onjuiste omleiding treedt op wanneer een desktoppagina smartphonegebruikers onjuist omleidt naar een smartphonepagina die niet relevant is voor hun zoekopdracht. Een goed voorbeeld hiervan is wanneer alle desktoppagina's smartphonegebruikers omleiden naar de startpagina van de site die voor smartphones is geoptimaliseerd. In de afbeelding hieronder worden onjuiste omleidingen weergegeven met rode pijlen:


Dit type omleiding onderbreekt de acties van gebruikers en kan ervoor zorgen dat ze de site verlaten. Wanneer onze systemen detecteren dat resultaten voor smartphones omleidingen bevatten naar een startpagina in plaats van een relevante URL, wordt er een opmerking voor de gebruiker weergegeven in de zoekresultaten:

Mogelijk wordt de startpagina van de site geopend.

Een gebruiker kan de link nog steeds openen door op Toch proberen te klikken. Zelfs wanneer een gebruiker volhoudt en de correcte pagina kan vinden op de voor smartphones geoptimaliseerde site, kost het ze met een irrelevante omleiding meer moeite om uw pagina te vinden via een traag mobiel netwerk. Onjuiste omleidingen zorgen niet alleen voor frustratie onder gebruikers, maar leveren ook problemen op met onze algoritmen voor crawlen, indexeren en positionering.

Hieronder volgen enkele tips waarmee u een zoekervaring kunt maken die geschikt is voor mobiele apparaten en onjuiste omleidingen kunt voorkomen:

  • Voer enkele zoekopdrachten uit op uw eigen telefoon (of stel uw browser zo in dat deze handelt als een smartphone) om te zien hoe uw site werkt.
  • De URL's die in het rapport staan, kunt u gebruiken als uitgangspunt om na te gaan wat het exacte probleem is met uw serverconfiguratie.
  • Stel uw server zodanig in dat smartphonegebruikers worden omgeleid naar de equivalente URL van uw smartphonepagina.
  • Als een pagina op uw site geen equivalente smartphonepagina heeft, laat gebruikers dan gewoon op de desktoppagina blijven en leid ze niet om naar de startpagina van de smartphonesite. In dit geval is het beter niets te doen dan het verkeerd te doen.
  • Probeer responsive webdesign te gebruiken, waarbij dezelfde content wordt weergegeven voor desktop- en smartphonegebruikers.
  • Lees ten slotte onze aanbevelingen voor het gebruik van afzonderlijke URL's voor desktop- en smartphonegebruikers.
URL's geblokkeerd voor smartphones

De fout 'Geblokkeerd' wordt vermeld op het tabblad 'Smartphone' van het gedeelte 'URL-fouten' van de pagina Crawlen > Crawlfouten. Als de fout 'Geblokkeerd' wordt weergegeven voor een URL op uw site, houdt dit in dat de URL is geblokkeerd voor Googlebot voor smartphones van Google in het robots.txt-bestand van uw site.

Dit hoeft geen specifieke smartphonefout te zijn (de equivalente desktoppagina kan ook zijn geblokkeerd). Het is echter vaak een signaal dat het robots.txt-bestand moet worden aangepast om het crawlen van URL's die geschikt zijn voor smartphones toe te staan. Wanneer de URL's die geschikt zijn voor smartphones zijn geblokkeerd, kunnen de mobiele pagina's niet worden gecrawld en worden deze daarom wellicht niet weergegeven in zoekresultaten.

Als de smartphonecrawlfout 'Geblokkeerd' voor URL's op uw site wordt weergegeven, controleert u het robots.txt-bestand voor uw site en zorgt u ervoor dat u delen van uw site niet onbedoeld blokkeert voor crawlpogingen van Googlebot voor smartphones.

Bekijk onze aanbevelingen voor meer informatie.

Flash-content

De fout Flash-content wordt weergegeven in het gedeelte URL-fouten van de pagina Crawlen > Crawlfouten onder het tabblad Smartphones.

Via onze algoritmen worden in dit gedeelte URL's vermeld waarvan de content voornamelijk in Flash wordt weergegeven. Veel apparaten kunnen deze pagina's niet weergeven, omdat Flash niet wordt ondersteund door iOS of Android-versies 4.1 en hoger. Daarnaast krijgen gebruikers van deze besturingssystemen de volgende melding voor deze URL's te zien in de zoekresultaten van Google:

Gebruikt Flash. Werkt mogelijk niet voor uw apparaat.

We raden u aan de mobiele ervaring voor uw website te verbeteren door responsief webontwerp voor uw site te gebruiken, iets dat wordt aanbevolen door Google voor het samenstellen van zoekvriendelijke sites voor alle apparaten.  U kunt meer informatie hiervoor vinden in Web Fundamentals, een uitgebreide bron voor webontwikkeling voor meerdere apparaten.

Ongeacht de aanpak die u gebruikt om dit probleem te verhelpen, moet u ervoor zorgen dat Googlebot toegang heeft tot alle items op uw site (CSS, JavaScript en afbeeldingen) en dat u deze niet blokkeert met robots.txt-bestanden of met behulp van andere middelen. Onze algoritmen hebben deze externe bestanden nodig om de ontwerpconfiguratie van uw site te detecteren en deze op de juiste manier te behandelen. U kunt controleren of onze indexeringsalgoritmen toegang hebben tot uw site via de functie Fetchen als Google in Search Console.

Fouten die zich alleen voordoen in Google Nieuws

 

Voordat nieuwsuitgevers specifieke foutmeldingen voor Google Nieuws kunnen bekijken, moeten ze een Search Console-account maken en hun site aan Google Nieuws toevoegen. Zodra u dit heeft gedaan, volgt u de onderstaande stappen in de Search Console:

  • Klik op de startpagina op de URL van de site.
  • Klik op het Dashboard op Crawlen > Crawlfouten.
  • Klik op het tabblad Nieuws om crawlfouten voor uw nieuwscontent weer te geven.
  • Crawlfouten zijn ingedeeld in categorieën, zoals 'Artikel extraheren' of 'Fout in titel'. Als u op een van deze categorieën klikt, wordt een lijst met URL's weergegeven en de crawlfouten die ze genereren.
Opmerking: We proberen zo veel mogelijk van uw content op te nemen, maar we kunnen niet garanderen dat elk artikel wordt opgenomen. Bedankt voor uw begrip.
Fout Beschrijving
Artikel extreem kort

De tekst van het artikel die we van deze HTML-pagina hebben opgehaald, is te kort in vergelijking met andere clusters tekst zonder links op de pagina. Dit is van toepassing op de meeste pagina's die korte nieuwsbulletins of multimediacontent bevatten in plaats van volledige nieuwsartikelen. We hebben deze fout gemeld om te voorkomen dat we een verkeerd stuk tekst opnemen.

Aanbevelingen

Dit probleem wordt vaak veroorzaakt door:

  • Te veel fragmenten voor gerelateerde artikelen: u kunt ons ophaalprogramma helpen door deze fragmenten klikbaar te maken.
  • Functies zoals 'Dit artikel naar vrienden verzenden' met lange beschrijvingen: probeer de stijl 'display:none' of 'visibility:hidden' in te stellen om de tekst onzichtbaar te maken of deze stukken HTML-code dynamisch te schrijven met JavasScript.
  • Gebruikersreacties: u kunt de reacties opnemen in een iframe, ze dynamisch ophalen met AJAX of ze naar een volgende pagina verplaatsen.
Artikel gefragmenteerd

De hoofdtekst van het artikel die we hebben opgehaald van de HTML-pagina, lijkt te bestaan uit losse zinnen die niet zijn samengevoegd tot alinea's. We hebben deze fout gemeld om te voorkomen dat we een verkeerd stuk tekst opnemen.

Aanbevelingen

  • Controleer of elke alinea langer dan een zin is.
  • Breng correcte leestekens aan in uw zinnen.
  • Zorg ervoor dat u niet te veel <br>- en <p>-tags binnen uw alinea's gebruikt en vermijd het fragmenteren van de artikeltekst in het algemeen.
  • Probeer een deel van de tekst die niet bij het artikel hoort, te verwijderen van de artikelpagina.
Artikel te lang

De hoofdtekst van het artikel die we hebben opgehaald van de HTML-pagina, lijkt te lang te zijn voor een nieuwsartikel. We hebben deze fout gemeld om te voorkomen dat we een verkeerd stuk tekst opnemen. Algemene oorzaken zijn nieuwsartikelen met daaronder een lange rij reacties van lezers of HTML-layouts die ander materiaal bevatten naast het nieuwsartikel zelf.

Aanbevelingen

Probeer een deel van de tekst die niet bij het artikel hoort, te verwijderen van de artikelpagina. Als het artikel reacties van gebruikers bevat, kunt u het volgende doen:

  • Sluit de reacties in een iframe in.
  • Laat de opmerkingen dynamisch ophalen met AJAX.
  • Verplaats een gedeelte van de opmerkingen naar een andere pagina.
Artikel te kort

De hoofdtekst van het artikel die we hebben opgehaald van de HTML-pagina, lijkt te weinig woorden te bevatten voor een nieuwsartikel. Dit is van toepassing op de meeste pagina's die korte nieuwsbulletins of multimediacontent bevatten in plaats van volledige nieuwsartikelen. We hebben deze fout gemeld om te voorkomen dat we een verkeerd stuk tekst opnemen.

Aanbevelingen

  • Deel uw artikelen in in tekstalinea's van een paar zinnen per alinea. Als het lijkt alsof de artikelcontent te weinig woorden bevat om een nieuwsartikel te zijn, kunnen we het artikel niet opnemen.
  • Zorg ervoor dat uw artikelen uit meer dan 80 woorden bestaan.
Datum niet gevonden

We kunnen de publicatiedatum van het artikel niet bepalen.

Aanbevelingen

Volg de aanbevelingen voor datumnotatie hieronder:

  • Neem voor elk artikel een duidelijke datum en tijd op een afzonderlijke HTML-regel op tussen de titel en de tekst van het artikel. De datum moet aangeven wanneer het artikel oorspronkelijk is gepubliceerd.
  • Verwijder alle andere datums uit de HTML van de artikelpagina, zodat de crawler ze niet aanziet voor de correcte publicatiedatum.
  • Als u een metatag voor de datum wilt gebruiken, moet u eerst contact met ons opnemen. U moet metatags voor datums opgeven in de volgende notatie: <meta name="DC.date.issued" content="JJJJ-MM-DD">, waarbij de datum in W3C-notatie wordt weergegeven met de notatie 'volledige datum' (JJJJ-MM-DD) of de notatie 'volledige datum plus uren, minuten en seconden' (JJJJ-MM-DDTuu:mm:ssTZD) met de tijdzone als achtervoegsel.
  • Maak een Nieuws-sitemap. De tag <publication_date> zorgt ervoor dat we de juiste datum voor uw artikelen kunnen kiezen.
Datum te oud

De datum die we voor dit artikel hebben gevonden in de tag <publication_date> in de sitemap of in de HTML-code van de pagina, is te oud.

Aanbevelingen

  • Controleer of uw artikel minder dan twee dagen oud is. Op dit moment verzamelen we alleen artikelen die maximaal twee dagen oud zijn.
  • Volg de aanbevelingen voor datumnotatie hierboven:
Leeg artikel

De tekst van het artikel die we hebben opgehaald van de HTML-pagina, lijkt leeg te zijn.

Aanbevelingen

  • Controleer of de volledige tekst van uw artikelen beschikbaar is in de broncode van uw artikelpagina's (en niet is ingesloten in bijvoorbeeld een JavaScript-bestand of iframe).
  • Zorg ervoor dat u de stijl 'display:none' of 'visibility:hidden' niet gebruikt in de broncode van uw artikelen.
  • Zorg ervoor dat de links naar uw artikelen rechtstreeks naar uw artikelpagina's leiden, en niet naar een tussenliggende pagina die gebruikmaakt van een JavaScript-omleiding.
Uitpakken mislukt

We kunnen het artikel niet uitpakken van de pagina. Dit kan voorkomen wanneer we geen geldige titel, tekst of tijdstempel voor een artikel kunnen vinden. We maken melding van URL's met deze fout om u te informeren waarom sommige artikelen niet worden weergegeven op Google Nieuws.

Aanbevelingen

  • Controleer of de titel, de tekst en het tijdstempel gemakkelijk kunnen worden gecrawld (beschikbaar zijn als tekst en niet als afbeeldingen). Momenteel wordt deze fout vooral ter informatie weergegeven. We werken er hard aan om onze ophaalmethode te verbeteren, zodat u deze fout minder vaak zult zien.
  • Verzend een Nieuws-sitemap.
Geen zinnen gevonden

De hoofdtekst van het artikel die we hebben opgehaald van de HTML-pagina, lijkt geen zinnen met interpunctie of een logische woordvolgorde te bevatten. We hebben deze fout gemeld om te voorkomen dat we een verkeerd stuk tekst opnemen.

Aanbevelingen

  • Wanneer de content van het artikel geen zinnen met interpunctie of een logische woordvolgorde heeft, kunnen we deze content niet opnemen in Google Nieuws. Zorg ervoor dat de tekst van uw artikel bestaat uit zinnen en dat u niet te veel <br>- of <p>-tags gebruikt in uw alinea's.
  • Controleer of de volledige tekst van uw artikelen beschikbaar is in de broncode van uw artikelpagina's (en niet is ingesloten in bijvoorbeeld een JavaScript-bestand).
  • Zorg ervoor dat de links naar uw artikelen rechtstreeks naar uw artikelpagina's leiden, en niet naar een tussenliggende pagina die gebruikmaakt van een JavaScript-omleiding.
Offsite verwijzing

Het nieuwsonderdeel of artikel verwijst naar een URL op een ander domein.

Aanbevelingen

  • Alle pagina's van nieuwsonderdelen en artikelen moeten binnen het domein vallen van de site die is opgenomen in Google Nieuws.
  • Als u geen offsite verwijzingen gebruikt, controleert u of uw site niet is gewijzigd door derden. Meer informatie over gehackte sites.
Pagina te groot

De lengte van de artikelpagina of het artikel overschrijdt het toegestane maximum.

Aanbeveling

  • De HTML-bronpagina kan een maximale grootte hebben van 256 KB.
Titel niet toegestaan

De titel die we hebben opgehaald van de HTML-pagina, doet vermoeden dat het niet om een nieuwsartikel gaat.

Aanbeveling

  • Dit probleem kan vaak worden opgelost door ervoor te zorgen dat de <title> -tag in de HTML-pagina de titel van het artikel bevat, en door de titel op een prominente plaats op de HTML-pagina te herhalen, zoals in een <h1> -tag. Meer informatie over titels.
Titel niet gevonden

We kunnen geen titel voor het artikel ophalen van de HTML-pagina.

Aanbevelingen

  • Volg onze aanbevelingen voor de notatie van titels.
  • Om ervoor te zorgen dat uw artikelen correct worden weergegeven op mobiele apparaten, moet u geen voorloopnummer (dit kan overeenkomen met een toegangssleutel) in de ankertekst van de titel plaatsen.
Decompressie mislukt

Googlebot-News heeft vastgesteld dat de pagina is gecomprimeerd maar kan deze niet uitpakken. Dit wordt mogelijk veroorzaakt door een slechte netwerkverbinding of door slechte programmering of configuratie van de webserver.

Aanbeveling

  • Controleer uw netwerk/webserver.
Niet-ondersteund type content

De pagina heeft een type HTTP-content die niet wordt ondersteund door Google Nieuws.

Aanbeveling

  • Artikelen moeten het contenttype text/html, text/plain of application/xhtml+xml hebben.
Was dit artikel nuttig?