Om robots.txt

Opret en robots.txt-fil

Hvis du bruger en hostingtjeneste som f.eks. Wix eller Blogger for dit website, skal du muligvis ikke oprette eller redigere en robots.txt-fil.

Kom godt i gang

En robots.txt-fil er placeret i roden til dit website. Som eksempel har robots.txt-filen for websitet www.example.com placeringen www.example.com/robots.txt. robots.txt er en almindelig tekstfil, der følger Robot Exclusion Standard. En robots.txt-fil består af én eller flere regler. Hver regel blokerer (eller tillader) adgang for en given crawler til en specificeret filsti på det pågældende website.

Her er en enkel robots.txt-fil med to regler, der er forklaret nedenfor:

# Gruppe 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Gruppe 2
User-agent: *
Allow: /

Sitemap: http://www.eksempel.dk/sitemap.xml

 

Forklaring:

  1. Brugeragenten med navnet "Googlebot"-crawler må ikke crawle mappen http://example.com/nogooglebot/ eller eventuelle undermapper.
  2. Alle andre brugeragenter kan få adgang til hele websitet (dette kan være udeladt, og resultatet ville være det samme, da fuld adgang er antagelsen).
  3. Websitets sitemapfil er placeret på http://www.example.com/sitemap.xml

Du kan se et mere detaljeret eksempel senere.

Grundlæggende retningslinjer for robots.txt

Her er nogle grundlæggende retningslinjer for robots.txt-filer. Vi anbefaler, at du læser den fulde syntaks for robots.txt-filerne, da der er små forskelle i syntaksen for robots.txt, som du bør forstå.

Format og placering

Du kan bruge stort set alle tekstredigeringsværktøjer til at oprette en robots.txt-fil. Tekstredigeringsværktøjet skal kunne oprette standardtekstfiler i UTF-8-format. Brug ikke et tekstbehandlingsprogram, da tekstbehandlingsprogrammer ofte gemmer filer i et særligt format og kan tilføje uventede tegn, f.eks. krøllede anførselstegn, hvilket kan give problemer for crawlere.

Brug værktøjet Test af robots.txt til at skrive eller redigere robots.txt-filer til dit website. Dette værktøj giver dig mulighed for at teste syntaks og adfærd for dit website.

Regler for format og placering:

  • Filen skal navngives robots.txt.
  • Dit website må kun have én robots.txt-fil.
  • Din robots.txt-fil skal placeres i roden af den websitehost, som den gælder for. Hvis robots.txt-filen f.eks. skal styre crawling på alle webadresserne under http://www.eksempel.dk/, skal den placeres på http://www.eksempel.dk/robots.txt. Den kan ikke placeres i en undermappe (f.eks. på http://eksempel.dk/sider/robots.txt). Hvis du er i tvivl om, hvordan du får adgang til websitets rod, eller har brug for adgangstilladelse, skal du kontakte din webhostingudbyder. Hvis du ikke kan få adgang til dit websites rod, kan du bruge alternative blokeringsmetoder som f.eks. metatags.
  • En robots.txt-fil kan anvendes til underdomæner (f.eks. http://website.eksempel.dk/robots.txt) eller ikke-standardporte (f.eks. http://eksempel.dk:8181/robots.txt).
  • Kommentarer er indhold efter tegnet #.

Syntaks

  • robots.txt skal være en UTF-8-krypteret tekstfil (som omfatter ASCII). Det er ikke muligt at bruge andre tegnsæt.
  • En robots.txt-fil består af én eller flere grupper.
  • Hver gruppe består af flere regler eller direktiver (instruktioner) med ét direktiv pr. linje.
  • En gruppe giver følgende oplysninger:
    • Hvem reglen gælder for (brugeragenten).
    • Hvilke indekser eller filer denne agent har adgang til.
    • Hvilke indekser eller filer denne agent ikke har adgang til.
  • Grupper behandles ovenfra og ned, og en brugeragent kan kun matche ét regelsæt, som er den første, mest specifikke regel, der matcher en given brugeragent.
  • Standardantagelsen er, at en brugeragent kan crawle en side eller et indeks, der ikke er blokeret af en regel af typen Disallow:.
  • Reglerne skelner mellem store og små bogstaver. Disallow: /file.asp gælder f.eks. for http://www.example.com/file.asp, men ikke for http://www.example.com/FILE.asp.

Følgende direktiver bruges i robots.txt-filer:

  • User-agent: [Obligatorisk, en eller flere pr. gruppe] Navnet på en søgemaskinerobot (webcrawlersoftware), som reglen gælder for. Dette er den første linje for enhver regel. De fleste af Googles brugeragentnavne er angivet i Web Robots Database eller på Googles liste over brugeragenter. Understøtter * som jokertegn for præfiks eller suffiks for sti eller for hele strengen. Hvis der bruges en stjerne (*) som i eksemplet nedenfor, matcher det alle crawlere undtagen de forskellige AdsBot-crawlere, som skal navngives udtrykkeligt. (Se listen med Google-crawlernavne). Eksempler:
    # Eksempel 1: Bloker kun Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Eksempel 2: Bloker Googlebot og AdsBot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Eksempel 3: Bloker alle undtagen AdsBot-crawlere
    User-agent: * 
    Disallow: /
  • Disallow: [Mindst én eller flere Disallow- eller Allow-poster pr. regel] Et indeks eller en side – afhængigt af roddomænet – der ikke skal crawles af brugeragenten. Hvis der er tale om en side, skal det være det fulde sidenavn, der vises i browseren. Hvis det er et indeks, skal det slutte med /.  Understøtter * som jokertegn for præfiks eller suffiks for sti eller for hele strengen.
  • Allow: [Mindst én eller flere Disallow- eller Allow-poster pr. regel] Et indeks eller en side – afhængigt af roddomænet – der skal crawles af den brugeragent, der lige er nævnt. Dette bruges til at tilsidesætte Disallow, så en undermappe eller side i et ikke-tilladt indeks kan crawles. Hvis der er tale om en side, skal det være det fulde sidenavn, der vises i browseren. Hvis det er et indeks, skal det slutte med /. Understøtter * som jokertegn for præfiks eller suffiks for sti eller for hele strengen.
  • Sitemap: [Valgfrit. Ingen eller flere pr. fil] Placeringen af et sitemap for dette website. Skal være en fuldt kvalificeret webadresse. Google antager ikke og tjekker ikke alternativer for http/https/www/ikke-www. Sitemaps er en god metode til at angive, hvilket indhold Google skal crawle, i modsætning til hvilket indhold der kan eller ikke kan crawles. Få flere oplysninger om sitemaps. Eksempel:
    Sitemap: https://eksempel.dk/sitemap.xml
    Sitemap: http://www.eksempel.dk/sitemap.xml

Andre regler ignoreres.

En anden eksempelfil

En robots.txt-fil består af én eller flere grupper. Hver gruppe begynder med linjen User-agent, der angiver målet for grupperne. Her er en fil med to grupper. Kommentarerne i linjen forklarer hver gruppe:

# Block googlebot from example.com/directory1/... and example.com/directory2/...
# but allow access to directory2/subdirectory1/...
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Block the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /

Fuld robots.txt-syntaks

Du kan se den fulde robots.txt-syntaks her. Læs hele dokumentationen, da robots.txt-syntaksen har nogle vanskelige dele, der er vigtige at lære.

Nyttige robots.txt-regler

Her er nogle almindelige nyttige robots.txt-regler:

Regel Eksempel
Forbyd crawling af hele websitet. Husk! I nogle situationer kan webadresser fra websitet stadig blive indekseret, selvom de ikke er blevet crawlet. Bemærk! Dette matcher ikke de forskellige AdsBot-crawlere, som skal være navngivet udtrykkeligt.
User-agent: *
Disallow: /
Forbyd crawling af et indeks og dets indhold ved at angive en skråstreg efter indeksnavnet. Husk, at du ikke skal bruge robots.txt til at blokere adgangen til privat indhold. Brug korrekt godkendelse i stedet. Webadresser, der afvises af robots.txt-filen, kan stadig blive indekseret, selvom de ikke bliver crawlet, og robots.txt-filen kan ses af alle, så placeringen af dit private indhold kan potentielt afsløres.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Giv adgang til en enkelt webcrawler
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Giv adgang til alle crawlere bortset fra én
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Forbyd crawling af en enkelt webside ved at indsætte siden efter skråstregen:

User-agent: *
Disallow: /private_file.html

Bloker et specifikt billede i Google Billeder:

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloker alle billeder på dit website i Google Billeder:

User-agent: Googlebot-Image
Disallow: /

Forbyd crawling af filer af en bestemt filtype (f.eks. .gif):

User-agent: Googlebot
Disallow: /*.gif$

Forbyd crawling af hele websitet, men vis AdSense-annoncer på disse sider, forbyd alle webcrawlere undtagen Mediapartners-Google. Denne implementering skjuler dine sider fra søgeresultaterne, men Mediapartners-Google-webcrawleren kan stadig analysere dem for at bestemme, hvilke annoncer der skal vises for besøgende på dit website.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Match webadresser, der ender med en bestemt streng. Brug $. Hvis du f.eks. vil blokere alle webadresser, der ender med .xls:
User-agent: Googlebot
Disallow: /*.xls$
Var disse oplysninger nyttige?
Hvordan kan vi forbedre siden?