Om robots.txt

Skapa en robots.txt-fil

Om du anlitar ett webbhotell, t.ex. Wix eller Blogger, kanske du inte behöver skapa eller redigera någon robots.txt-fil.

Komma igång

Filen robots.txt ska finnas i webbplatsens rotkatalog. På webbplatsen www.example.com skulle filen robots.txt till exempel ha sökvägen www.example.com/robots.txt. En robots.txt-fil är en vanlig textfil som följer standarden Robots Exclusion Standard. En robots.txt-fil består av en eller flera regler. Varje regel hindrar (eller tillåter) att en sökrobot av en viss typ får tillgång till en viss sökväg på webbplatsen.

Det här är en enkel robots.txt-fil med två regler som förklaras nedan:

# Grupp 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Grupp 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

 

Förklaring

  1. Användaragenten med namnet Googlebot får inte genomsöka katalogen http://example.com/nogooglebot/ eller dess underkataloger.
  2. Alla andra användaragenter har tillgång till hela webbplatsen. (Om den här regeln hade utelämnats skulle resultatet ha blivit detsamma, eftersom fullständig åtkomst antas gälla som standard.)
  3. Webbplatskartfilen för webbsidan finns på http://www.example.com/sitemap.xml

Vi ger ett mer detaljerat exempel senare.

Grundläggande riktlinjer för robots.txt-filer

Här följer några grundläggande riktlinjer för robots.txt-filer. Vi rekommenderar att du läser igenom den fullständiga specifikationen av robots.txt-filers syntax eftersom det finns några små detaljer som är viktiga att känna till.

Format och placering

Du kan skriva en robots.txt-fil med nästan vilken textredigerare som helst. Textredigeraren måste kunna skapa vanliga textfiler med teckenkodningen UTF-8. Använd inte en ordbehandlare – sådana sparar ofta filer i ett eget format och kan lägga till oväntade tecken, till exempel typografiska citattecken, vilket kan orsaka problem för sökrobotarna.

Använd testverktyget för robots.txt när du ska skriva eller redigera robots.txt-filer. Då kan du testa syntaxen och se hur filen fungerar på webbplatsen.

Regler för format och placering:

  • Filen måste heta robots.txt.
  • Det får bara finnas en robots.txt-fil på webbplatsen.
  • Filen robots.txt måste finnas i rotkatalogen för den webbplats den gäller. Om du till exempel vill styra genomsökningen av alla webbadresser på http://www.example.com/ måste robots.txt-filen finnas på http://www.example.com/robots.txt. Den får inte ligga i en underkatalog (t.ex. http://example.com/pages/robots.txt). Kontakta webbhotellet om du är osäker på hur du får åtkomst till webbplatsens rotkatalog, eller om du behöver åtkomstbehörighet. Om du saknar åtkomst till webbplatsens rotkatalog kan du blockera sökrobotar på något annat sätt, till exempel med metataggar.
  • En robots.txt-fil kan gälla för en underdomän (till exempel http://webbplats.example.com/robots.txt) eller för andra portar än standard (till exempel http://example.com:8181/robots.txt).
  • Kommentarer är allt innehåll efter ett #-märke.

Syntax

  • Filen robots.txt måste vara en textfil med teckenkodningen UTF-8 (inklusive ASCII). Det går inte att använda andra teckenuppsättningar.
  • En robots.txt-fil består av en eller flera grupper.
  • Varje grupp består av flera regler eller direktiv (instruktioner), ett direktiv per rad.
  • I varje grupp anges
    • för vem gruppen gäller (användaragenten)
    • vilka kataloger eller filer som agenten får tillgång till
    • och/eller vilka kataloger eller filer som agenten inte får tillgång till.
  • Grupperna läses uppifrån och ned, och bara den första och mest specifika regeln som svarar mot den aktuella användaragenten används. En och samma användaragent matchas alltså inte mot fler än ett regelblock.
  • Som standard antas att en användaragent får genomsöka en sida eller katalog som inte blockeras av en Disallow:-regel.
  • Reglerna är skiftlägeskänsliga. Regeln Disallow: /file.asp gäller till exempel för http://www.example.com/file.asp men inte för http://www.example.com/File.asp.

Följande direktiv används i robots.txt-filer:

  • User-agent: [Obligatoriskt, minst en per grupp] Namnet på en sökmotors sökrobot som regeln gäller för. Detta är den första raden i varje regel. De flesta användaragenters namn framgår av Web Robots Database eller listan med Googles sökrobotar. Jokertecknet * kan användas som prefix eller suffix i en sökväg eller i stället för hela strängen. En asterisk (*) som i exemplet nedan matchar alla sökrobotar utom de olika AdsBot-sökrobotarna, som måste namnges uttryckligen. (Se listan med namn på Googles sökrobotar.) Exempel:
    # Exempel 1: Blockera enbart Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Exempel 2: Blockera Googlebot och Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
     
    # Exempel 3: Blockera alla sökrobotar utom AdsBot
    User-agent: * 
    Disallow: /
  • Disallow: [Minst en Disallow- eller Allow-post per regel] En katalog eller sida som anges relativt rotdomänen och som användaragenten inte får genomsöka. Sidor ska anges med det fullständiga sidnamnet, så som det visas i webbläsaren. Namn på kataloger ska sluta med ett snedstreck (/).  Jokertecknet * kan användas som prefix eller suffix i en sökväg eller i stället för hela strängen.
  • Allow: [Minst en Disallow- eller Allow-post per regel] En katalog eller sida som anges relativt rotdomänen och som användaragenten får genomsöka. Detta används för att åsidosätta Disallow om man vill att en underdomän eller sida i en otillåten katalog genomsöks. Sidor ska anges med det fullständiga sidnamnet, så som det visas i webbläsaren. Namn på kataloger ska sluta med ett snedstreck (/). Jokertecknet * kan användas som prefix eller suffix i en sökväg eller i stället för hela strängen.
  • Sitemap: [Valfritt, noll eller flera per fil] Platsen för en webbplatskarta för webbplatsen. Detta måste vara en fullständig webbadress. Google räknar inte med förekomsten av adressvarianter, t.ex. med eller utan www eller med http/https, och kontrollerar inte sådana varianter. Med webbplatskartor kan du på ett smidigt sätt ange vilket innehåll som Google ska genomsöka, i stället för att ange vilket innehåll som vi får eller inte får genomsöka. Läs mer om webbplatskartor. Exempel:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: http://www.example.com/sitemap.xml

Andra regler ignoreras.

En exempelfil till

En robots.txt-fil består av en eller flera grupper som var och en börjar med en User-agent-rad, som anger vem regeln gäller för. Det här är en fil med två grupper och kommentarer som förklarar vad grupperna gör:

# Blockera example.com/katalog1/... och example.com/katalog2/... för googlebot
# men tillåt googlebot att besöka katalog2/underkatalog1/...
# Alla andra kataloger på webbplatsen är tillåtna som standard.
User-agent: googlebot
Disallow: /katalog1/
Disallow: /katalog2/
Allow: /katalog2/underkatalog1/

# Blockera hela webbplatsen för anothercrawler.
User-agent: anothercrawler
Disallow: /

Fullständig syntax för robots.txt-filer

Du hittar den fullständiga syntaxen för robots.txt-filer här. Läs igenom hela dokumentationen – det finns några saker som är knepiga med syntaxen och som är viktiga att känna till.

Praktiska robots.txt-regler

Det här är några vanliga robots.txt-regler som kan vara användbara:

Regel Exempel
Tillåt inte att webbplatsen genomsöks. Tänk på att webbadresser från webbplatsen fortfarande kan indexeras i vissa situationer, även om de inte har genomsökts. Obs! De olika AdsBot-sökrobotarna matchas inte av denna regel utan måste namnges uttryckligen.
User-agent: *
Disallow: /
Tillåt inte att en katalog och dess innehåll genomsöks: skriv ett snedstreck efter katalogens namn. Tänk på att robots.txt inte ska användas som ett sätt att blockera privat innehåll – använd autentisering i stället. Webbadresser som blockeras från genomsökning i robots.txt-filen kan indexeras utan genomsökning. Filen robots.txt kan läsas av vem som helst, vilket kan avslöja var det privata innehållet finns.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Ge en enda sökrobot åtkomst
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Ge alla utom en sökrobot åtkomst
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Tillåt inte genomsökning av en enskild webbsida: ange sidans namn efter snedstrecket:

User-agent: *
Disallow: /private_file.html

Blockera en enskild bild som inte ska visas på Google Bilder:

User-agent: Googlebot-Image
Disallow: /images/hundar.jpg

Blockera alla bilder på webbplatsen så att de inte visas på Google Bilder:

User-agent: Googlebot-Image
Disallow: /

Tillåt inte genomsökning av filer av en viss typ (till exempel .gif):

User-agent: Googlebot
Disallow: /*.gif$

Tillåt inte att webbplatsen genomsöks, men visa AdSense-annonser på sidorna: tillåt inga andra sökrobotar än Mediapartners-Google. Med den här metoden döljs sidorna i sökresultat, men sökroboten Mediapartners-Google kan fortfarande analysera dem för att avgöra vilka annonser som ska visas för besökarna på din webbplats.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Matcha webbadresser som slutar med en viss sträng: använd $. Exempelkoden gör att alla webbadresser som slutar med .xls blockeras:
User-agent: Googlebot
Disallow: /*.xls$
Var det här till hjälp?
Hur kan vi förbättra den?