Om robots.txt

Introduktion til robots.txt

Grundlæggende viden om robots.txt-filer: Hvad er det, og hvordan bruger du dem?

Hvad er en robots.txt-fil?

En robots.txt-fil fortæller søgemaskinecrawlere, hvilke sider eller filer crawleren kan eller ikke kan anmode om fra dit website. Dette bruges primært for at undgå at overbelaste dit website med anmodninger. Det er ikke en mekanisme til at udelukke en webside fra Google. Hvis du ikke vil medtage en webside på Google, skal du bruge noindex-direktiver eller beskytte din side med en adgangskode.

Hvad bruges robots.txt til?

robots.txt bruges primært til at administrere crawlertrafik til dit website og normalt til at holde en side væk fra Google afhængigt af filtypen:

Sidetype Administration af trafik Skjul fra Google Beskrivelse
Webside

For websider (HTML, PDF eller andre ikke-medieformater, som Google kan læse) kan robots.txt bruges til at administrere crawlertrafik, hvis du mener, at din server kan blive overbelastet af anmodninger fra Googles crawler, eller til at undgå crawling af uvæsentlige eller identiske sider på dit website.

Du bør ikke bruge robots.txt som metode til at skjule dine websider i Googles søgeresultater. Dette skyldes, at din side stadig kan blive indekseret uden at besøge siden, hvis andre sider peger på din side med beskrivende tekst. Hvis du vil blokere din side fra søgeresultaterne, skal du benytte en anden metode, f.eks. adgangskodebeskyttelse eller et noindex-direktiv.

Hvis din webside er blokeret med en robots.txt-fil, kan den stadig vises i søgeresultaterne, men søgeresultatet indeholder ingen beskrivelse og ser nogenlunde sådan her ud. Billedfiler, videofiler, PDF-filer og andre ikke-HTML-filer udelukkes. Hvis du ser dette søgeresultat for din side og vil rette det, skal du fjerne robots.txt-posten, der blokerer for siden. Hvis du vil skjule siden helt fra søgning, skal du bruge en anden metode.

Mediefil

Brug robots.txt til at administrere crawltrafik samt til at forhindre billed-, video- og lydfiler i at blive vist i Googles søgeresultater. (Bemærk, at dette ikke forhindrer andre sider eller brugere i at linke til din billede/video/lydfil).

Ressourcefil

Du kan bruge robots.txt til at blokere ressourcefiler som f.eks. uvæsentlige billed-, script- eller typografifiler, hvis du mener, at sider, der indlæses uden disse ressourcer, ikke påvirkes væsentligt af det. Hvis Googles crawler har sværere ved at forstå siden uden disse ressourcer, bør du dog ikke blokere dem, ellers kan Google ikke analysere sider, som er afhængige af disse ressourcer, nær så godt.

Jeg bruger en hostingtjeneste for websites

Hvis du bruger en hostingtjeneste som f.eks. Wix, Drupal eller Blogger til dit website, skal (eller kan) du muligvis ikke redigere din robots.txt-fil direkte. I stedet benytter din udbyder muligvis en side med søgeindstillinger eller en anden mekanisme til at fortælle søgemaskiner, om de skal crawle din side eller ej.

Søg efter din sides webadresse på Google for at se, om siden er blevet crawlet af Google.

Hvis du vil skjule (eller vise) din side for søgemaskiner, kan du tilføje (eller fjerne) eventuelle krav om login på siden og søge efter vejledning i, hvordan du ændrer din sides synlighed for søgemaskiner på din hostingtjeneste, f.eks.: wix skjul side for søgemaskiner.

Forstå begrænsningerne ved robots.txt

Inden du opretter eller redigerer robots.txt, bør du kende begrænsningerne ved denne metode til blokering af webadresser. I visse situationer er det en god idé at overveje at bruge andre metoder til at sikre, at dine webadresser ikke kan findes på nettet.

  • robots.txt-direktiver understøttes muligvis ikke af alle søgemaskiner
    Instruktionerne i robots.txt-filer kan ikke håndhæve crawleradfærd på dit website. Det er op til crawleren at følge dem. Googlebot og andre anerkendte webcrawlere følger instruktionerne i en robots.txt-fil, men det gør andre webcrawlere muligvis ikke. Hvis du vil beskytte dine oplysninger mod webcrawlere, er det derfor bedre at anvende andre blokeringsmetoder, som f.eks. private filer, der beskyttes med adgangskode på din server.
  • Hver webcrawler fortolker syntaks forskelligt
    Selvom anerkendte webcrawlere følger retningslinjerne i en robots.txt-fil, kan hver webcrawler fortolke retningslinjerne forskelligt. Du bør kende den rette syntaks til at håndtere forskellige webcrawlere (nogle forstår muligvis ikke alle dine instruktioner).
  • En side med robot.txt kan stadig indekseres, hvis der er linket til den fra andre websites
    Selvom Google ikke crawler eller indekserer det indhold, som er blokeret via robots.txt, kan vi stadig finde og indeksere en ikke-tilladt webadresse, hvis der er linket til den fra andre steder på nettet. Derfor kan webadressen og eventuelt også andre offentligt tilgængelige oplysninger på siden, f.eks. selve teksten i links til siden, forekomme i Googles søgeresultater. Hvis du vil være sikker på, at din webadresse ikke vises i Googles søgeresultater, skal du beskytte filerne på din server med en adgangskode eller bruge et noindex-metatag eller svarheaderen (eller fjerne siden helt).
Bemærk! Hvis du kombinerer forskellige retningslinjer for crawl og indeksering, kan nogle retningslinjer modvirke andre retningslinjer. Find ud af, hvordan du konfigurerer disse retningslinjer korrekt i afsnittet om kombination af crawl og indeksering/retningslinjer for visning i dokumentationen til Google Developers.

Test af en side for robots.txt-blokeringer

Du kan teste, om en side eller ressource er blokeret af en robots.txt-regel.

Brug værktøj til undersøgelse af webadresser til at teste for noindex-direktiver.

Var disse oplysninger nyttige?
Hvordan kan vi forbedre siden?