​robots.txt-rapport

Se, om Google kan behandle dine robots.txt-filer

robots.txt-rapporten viser, hvilke robots.txt-filer Google har fundet for de 20 mest populære hosts på dit website, sidste gang de blev crawlet, og eventuelle advarsler eller fejl, der blev registreret. Rapporten giver dig også mulighed for at anmode om en ny crawl af en robots.txt-fil i nødsituationer.

En robots.txt-fil bruges til at forhindre søgemaskiner i at crawle dit website. Brug noindex, hvis du vil forhindre, at indhold vises i søgeresultaterne.

Denne rapport er kun tilgængelig for ejendomme på domæneniveau. Det vil sige enten:

  • En domæneejendom (f.eks. eksempel.dk eller m.eksempel.dk) eller
  • En ejendom med webadressepræfiks uden en sti, f.eks. https://eksempel.dk/, men ikke https://eksempel.dk/sti/.

Åbn robots.txt-rapporten

 

Se dine robots.txt-filer og din Webcrawler-status

I en domæneejendom indeholder rapporten robots.txt-filer fra de 20 mest populære hosts i den pågældende ejendom.

For hver robots.txt-fil, der tjekkes af Search Console, kan du se følgende oplysninger:

  • Filsti – Den komplette webadresse, hvor Google tjekkede, om der var en robots.txt-fil. En webadresse vises kun i rapporten, hvis den har haft statussen Hentet eller Ikke hentet inden for de seneste 30 dage. Se Placering af robots.txt-filer.
  • Status for hentning – Status for den seneste anmodning om hentning for denne fil. Følgende værdier er mulige:
    • Ikke hentet – Ikke fundet (404): Der opstod en 404-fejl (filen findes ikke) under anmodningen om denne fil. Hvis du har uploadet en robots.txt-fil på den angivne webadresse, men får vist denne fejl, kan du prøve at undersøge webadressen for at se, om der er nogen problemer med tilgængeligheden. En fil med statussen Ikke fundet (404) i 30 dage vises ikke længere i rapporten (Google fortsætter dog med at tjekke den i baggrunden). Det er i orden ikke at have en robots.txt-fejl, da det betyder, at Google kan crawle alle webadresserne på dit website. Her kan du dog få flere oplysninger om, hvad Google gør i tilfælde af en robot.txt-fejl.
    • Ikke hentet – Enhver anden årsag: Der opstod et andet problem under anmodningen om denne fil. Se en liste over problemer med indeksering.
    • Hentet: Det seneste crawlforsøg returnerede en robots.txt-fil. Eventuelle problemer, der registreres under parsing af filen, angives i kolonnen Problemer. Google ignorerer linjerne med problemer og bruger dem, der kan parses.
  • Tjekket – Hvornår Google sidst forsøgte at crawle denne webadresse, i lokal tid.
  • Størrelse – Størrelsen på den hentede fil i bytes. Hvis det seneste forsøg på hentning mislykkedes, er feltet tomt.
  • Problemer – Tabellen viser antallet af parsingproblemer i filens indhold, da filen sidst blev hentet. Fejl forhindrer en regel i at blive brugt. Advarsler forhindrer ikke en regel i at blive brugt. Læs, hvad Google gør i tilfælde af en robots.txt-fejl. Brug et robots.txt-valideringsværktøj for at løse parsingproblemer.

Se den sidst hentede version

Du kan se den sidst hentede version af en robots.txt-fil ved at klikke på den på fillisten i rapporten. Hvis robots.txt-filen indeholder fejl eller advarsler, fremhæves de i det viste filindhold. Du kan gennemgå fejl og advarsler ved hjælp af piletasterne.

Se tidligere hentede versioner

Hvis du vil se anmodninger om hentning for en given robots.txt-fil inden for de seneste 30 dage, skal du klikke på filen på listen over filer i rapporten og derefter klikke på Versioner. Du kan se filindholdet i den pågældende version ved at klikke på versionen. En anmodning medtages kun i historikken, hvis den hentede fil eller det hentede resultat adskiller sig fra den tidligere anmodning om filhentning.

Hvis Google stødte på en fejl i forbindelse med hentning under det seneste forsøg på hentning, bruger Google den senest hentede version uden fejl i op til 30 dage.

Anmod om en ny crawl

Du kan anmode om en ny crawl af en robots.txt-fil, når du har rettet en fejl eller foretaget en kritisk ændring.

Hvornår bør du anmode om en ny crawl?

Du behøver normalt ikke at anmode om en ny crawl af en robots.txt-fil, da Google ofte crawler dine robots.txt-filer igen. I følgende tilfælde kan du dog anmode om en ny crawl af din robots.txt-fil:

  • Du har ændret dine robots.txt-regler, så blokeringen af nogle vigtige webadresser fjernes, og du vil gerne hurtigt give Google besked om dette (vær opmærksom på, at dette ikke garanterer en øjeblikkelig ny crawl af webadresser, der ikke er blokeret).
  • Du har rettet en hentningsfejl eller en anden kritisk fejl.

Sådan anmoder du om en ny crawl

Hvis du vil anmode om en ny crawl, skal du vælge ikonet for flere indstillinger ud for en fil på listen over robots-filer og klikke på Anmod om en ny crawl.

Websites i tjenester til hosting af websites

Hvis dit website hostes i en tjeneste til hosting af websites, er det muligvis ikke nemt at redigere din robots.txt-fil. I så fald skal du læse din websitehosts dokumentation om, hvordan du forhindrer bestemte sider i at blive crawlet eller indekseret af Google. Vær opmærksom på, at de fleste brugere er mere interesserede i at forhindre, at filer vises i Google Søgning, end at de crawles af Google. Hvis det også er tilfældet for dig, kan du søge efter oplysninger i din hostingtjeneste om blokering af sider fra søgemaskiner.

Hvad sker der, når Google ikke kan hente eller læse din robots.txt-fil?

Hvis der ikke kan findes en robots.txt-fil for et domæne eller underdomæne, antager Google, at alle webadresser på den pågældende host kan crawles.

Hvis Google finder en robots.txt-fil, men ikke kan hente den, gør Google følgende:

  1. I de første 12 timer stopper Google med at crawle websitet, men fortsætter med at prøve at hente robots.txt-filen.
  2. Hvis Google ikke kan hente en ny version, vil Google i de efterfølgende 30 dage bruge den seneste brugbare version, mens Google fortsat forsøger at hente en ny version. Du kan se den seneste brugbare version i versionshistorikken.
  3. Hvis fejlene stadig ikke er rettet efter 30 dage:
    • Hvis websitet er generelt tilgængeligt for Google, er Googles adfærd den samme, som hvis der ikke var nogen robots.txt-fil (men Google tjekker stadig, om der er en ny version).
    • Hvis der er problemer med den generelle tilgængelighed for websitet, stopper Google med at crawle websitet, men anmoder fortsat om en robots.txt-fil med jævne mellemrum.

Hvis Google finder og kan hente en robots.txt-fil: Google læser filen linje for linje. Hvis en linje har en fejl eller ikke kan parses til en robots.txt-regel, springes den over. Hvis der ikke er nogen gyldige linjer i filen, behandler Google den som en tom robots.txt-fil, hvilket betyder, at der ikke erklæres nogen regler for websitet.

Placering af robots.txt-filer

Terminologi:

  • En protokol (også kaldet et skema) er enten HTTP eller HTTPS.
  • En host er alt i webadressen efter protokollen (http:// eller https://) og inden stien. Hosten m.de.eksempel.dk antyder derfor 3 mulige hosts: m.de.eksempel.dk, de.eksempel.dk og eksempel.dk, der hver især kan have deres egen robots.txt-fil.
  • En oprindelse er protokol + host. Det vil sige https://eksempel.dk/ eller https://m.eksempel.co.es/

I henhold til RFC 9309 skal robots.txt-filen være i roden af hver kombination af protokol og host på dit website.

For en domæneejendom:

  1. Search Console vælger de 20 bedste hosts sorteret efter crawlhastighed. Rapporten kan vise op til 2 oprindelser for hvert domæne, hvilket betyder, at tabellen kan vise op til 40 rækker. Hvis du ikke kan finde webadressen til robots.txt-filen for en af dine hosts, kan du oprette en domæneejendom for det manglende underdomæne.
  2. Search Console tjekker to webadresser for hver host:
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. Hvis robots.txt-filen på den anmodede webadresse rapporteres som Ikke fundet i 30 dage, viser Search Console ikke webadressen i denne rapport, selvom Google fortsætter med at tjekke webadressen i baggrunden. I forbindelse med alle andre resultater viser rapporten den tjekkede webadresse.

Hvis det drejer sig om en ejendom med webadressepræfiks på hostniveau (f.eks. https://eksempel.dk/), tjekker Search Console kun én oprindelse for den pågældende ejendom. Det vil sige, at for ejendommen https://eksempel.dk tjekker Search Console kun https://eksempel.dk/robots.txt og altså ikke http://eksempel.dk/robots.txt eller https://m.eksempel.dk/robots.txt.

Almindelige opgaver

Se en robots.txt-fil

Hvis du vil åbne en robots.txt-fil, der er angivet i denne rapport, skal du klikke på filen på listen over robots.txt-filer. Du kan åbne filen i din browser ved at klikke på Åbn liveversionen af robots.txt.

Du kan åbne en hvilken som helst robots.txt-fil på nettet i din browser. Se nedenfor, hvilken webadresse du skal besøge.

Hvor kan robots.txt-filerne placeres?

En robots.txt-fil er placeret i roden af en protokol og et domæne. For at fastslå webadressen skal du fjerne alt efter hosten (og den valgfrie port) i en fils webadresse og tilføje "/robots.txt". Du kan gå til robots.txt-filen i din browser, hvis der er en sådan fil. Robots.txt-filer er ikke nedarvet af underdomæner eller overordnede domæner, og en given side kan kun påvirkes af én robots.txt-fil. Her er nogle eksempler:

Filens webadresse Webadresse for robots.txt, som kan påvirke den pågældende fil
http://eksempel.dk/startside http://eksempel.dk/robots.txt
https://m.de.eksempel.dk/en/side/her/minside https://m.de.eksempel.dk/robots.txt
https://eksempel.dk?sideid=234#mitanker https://eksempel.dk/robots.txt
https://billeder.eksempel.dk/blomster/påskelilje.png https://billeder.eksempel.dk/robots.txt

Se, hvilken robots.txt-fil der påvirker en side eller et billede

Sådan finder du webadressen for den robots.txt-fil, der påvirker en side eller et billede:

  1. Find den nøjagtige webadresse for siden eller billedet. Når det gælder et billede, skal du højreklikke i Google Chrome-browseren og vælge Kopiér billedets webadresse.
  2. Fjern slutningen af webadressen efter topdomænet på topniveau (f.eks. .com, .org, .co.il), og tilføj /robots.txt til slut. Så robots.txt-filen for https://billeder.eksempel.dk/blomster/påskelilje.png er https://billeder.eksempel.dk/robots.txt
  3. Åbn webadressen i din browser for at bekræfte, at den findes. Hvis din browser ikke kan åbne filen, findes den ikke.

Test, om Google er blokeret af robots.txt

Flere oplysninger

Var disse oplysninger nyttige?

Hvordan kan vi forbedre siden?
Søgning
Ryd søgning
Luk søgning
Hovedmenu
1076766569012287342
true
Søg i Hjælp
true
true
true
true
true
83844
false
false