Om robots.txt

Introduktion till robots.txt

Grundläggande information om robots.txt-filer: vad är det och hur används de?

Vad är en robots.txt-fil?

En robots.txt-fil anger vilka sidor eller filer på webbplatsen som en sökrobot får begära från servern och inte. Filen är i första hand till för att förhindra överbelastning på grund av för många anrop. Den är inte till för att hindra webbsidor från att visas på Google. Om du vill att en webbsida inte ska visas på Google bör du använda noindex-direktiv eller lösenordsskydda sidan.

Vad används robots.txt till?

Filen robots.txt används i första hand för att styra sökrobottrafiken på webbplatsen och oftast för att hindra en sida från att visas på Google, beroende på vilket slags fil det är:

Typ av sida Hantera trafik Dölja för Google Beskrivning
Webbsida

För webbsidor (HTML, PDF och andra filtyper som Google kan läsa och som inte är mediefiler) kan robots.txt användas för att styra sökrobottrafiken om servern riskerar att bli överbelastad av besök från Googles sökrobot. Du kan också använda filen till att förhindra att oviktiga eller snarlika sidor på webbplatsen genomsöks.

Använd inte robots.txt som ett sätt att hindra webbsidor från att visas i Googles sökresultat. Om det finns länkar med beskrivande text till en sida någonstans ifrån kan den sidan nämligen fortfarande indexeras, utan att sökroboten besöker den. Använd en annan metod om du vill ta bort sidan från sökresultaten, till exempel lösenordsskydd eller ett noindex-direktiv.

Även om webbsidan blockeras av robots.txt kan den visas i sökresultaten, men sökresultatet kommer att sakna beskrivning och se ut ungefär så här. Bildfiler, videofiler, PDF-filer och andra filer som inte är HTML utelämnas. Om du ser ett sökresultat av den här typen för en sida och vill åtgärda det tar du bort robots.txt-posten som blockerar sidan. Använd en annan metod om du vill dölja sidan helt i sökresultaten.

Mediefil

Du kan styra genomsökningstrafiken och förhindra att bilder, videor och ljudfiler visas i Googles sökresultat med robots.txt. (Obs! Andra sidor eller användare kan fortfarande länka till bilden/videon/ljudfilen.)

Resursfil

Med robots.txt kan du blockera resursfiler, till exempel oviktiga bild-, skript- eller formatfiler, om du anser att sidor som läses in utan dessa resurser inte påverkas nämnvärt av blockeringen. Men om Googles sökrobot får svårare att tolka en sida utan resurserna bör du inte blockera dem, eftersom sidorna som behöver dem då inte analyseras korrekt av Google.

Jag använder ett webbhotell

Om du använder ett webbhotell, t.ex. Wix, Drupal eller Blogger, kanske du inte behöver redigera robots.txt-filen direkt (det kanske inte ens är möjligt). I stället kan leverantören ha en sida med sökinställningar eller liknande som styr om sidan får genomsökas av sökrobotar.

Du tar reda på Google har genomsökt sidan genom att söka efter sidans webbadress på Google.

Om du vill dölja (eller sluta dölja) en sida från sökmotorer lägger du till (eller tar bort) eventuella inloggningskrav och söker efter anvisningar om hur du gör sidor synliga för sökmotorer på den aktuella webbtjänsten. Exempel: wix+hide+page+from+search+results

Begränsningar med robots.txt

Innan du skapar eller redigerar en robots.txt-fil bör du känna till vilka begränsningar den här typen av webbadressblockering har. I vissa fall kanske du vill använda andra tekniker så att dina webbadresser inte ska gå att hitta på webben.

  • Robots.txt-direktiv kanske inte stöds av alla sökmotorer
    Instruktionerna i robots.txt-filer är inte tvingande för sökrobotar. Det är upp till sökrobotarna om de ska följas eller inte. Googlebot och andra sökrobotar från seriösa företag följer instruktionerna i en robots.txt-fil, men alla sökrobotar gör kanske inte det. Därför är det bättre att blockera innehåll på andra sätt om du vill att sökrobotar inte ska kunna hitta det. Du kan till exempel lösenordsskydda privata filer på servern.
  • Syntaxen tolkas olika av olika sökrobotar
    Även om seriösa företags sökrobotar följer instruktionerna i en robots.txt-fil kan det hända att olika sökrobotar tolkar syntaxen på olika sätt. Du bör känna till rätt syntax för att hantera olika sökrobotar, eftersom en del kanske inte förstår vissa instruktioner.
  • En sida som blockerats med robot.txt kan fortfarande indexeras om andra webbplatser länkar till den
    Google varken genomsöker eller indexerar innehåll som blockerats med robots.txt, men vi kan fortfarande hitta och indexera en blockerad webbadress om det finns länkar till den någon annanstans på webben. Därför kan webbadressen och möjligen även annan offentligt tillgänglig information, t.ex. ankartext i länkar till sidan, ändå visas i Googles sökresultat. Det bästa sättet att förhindra att en webbadress visas i Googles sökresultat är att lösenordsskydda filerna på servern eller använda metataggen eller svarshuvudet noindex (eller ta bort sidan helt).
Obs! Om du kombinerar olika direktiv för genomsökning och indexering kan det hända att de motsäger varandra. Läs mer om hur direktiven ska konfigureras i avsnittet om att kombinera direktiv för genomsökning och indexering/visning i dokumentationen på webbplatsen Google Developers.

Testa om en sida blockeras av robots.txt

Du kan testa om en sida eller resurs blockeras av en robots.txt-regel.

Använd granskningsverktyget för webbadresser om du vill testa noindex-direktiv.

Var det här till hjälp?
Hur kan vi förbättra den?