Blockera webbadresser med robots.txt

Mer om robots.txt-filer

Vad är en robots.txt-fil?

En robots.txt-fil anger vilka sidor eller filer på webbplatsen som en sökrobot får begära från servern och inte. Filen är i första hand till för att förhindra överbelastning på grund av för många anrop. Den är inte till för att hindra webbsidor från att visas på Google. Om du vill att en webbsida inte ska visas på Google bör du använda noindex-taggar eller noindex-direktiv eller lösenordsskydda sidan.

Vad används robots.txt till?

Filen robots.txt används i första hand för att styra sökrobottrafiken på webbplatsen och i vissa fall för att hindra en sida från att visas på Google, beroende på vilket slags fil det är:

Typ av sida Hantera trafik Dölja för Google Beskrivning
Webbsida

För webbsidor (HTML, PDF och andra filtyper som Google kan läsa och som inte är mediefiler) kan robots.txt användas för att styra sökrobottrafiken om servern riskerar att bli överbelastad av besök från Googles sökrobot. Du kan också använda filen till att förhindra att oviktiga eller snarlika sidor på webbplatsen genomsöks.

Använd inte robots.txt som ett sätt att hindra webbsidor från att visas i Googles sökresultat. Om det finns länkar med beskrivande text till en sida någonstans ifrån kan den sidan nämligen fortfarande indexeras, utan att sökroboten besöker den. Använd en annan metod om du vill ta bort sidan från sökresultaten, till exempel lösenordsskydd eller ett noindex-direktiv.

Även om webbsidan blockeras av robots.txt kan den visas i sökresultaten, men sökresultatet kommer att sakna beskrivning och se ut ungefär så här. Bildfiler, videofiler, PDF-filer och andra filer som inte är HTML utelämnas. Om du ser ett sökresultat av den här typen för en sida och vill åtgärda det tar du bort robots.txt-posten som blockerar sidan. Använd en annan metod om du vill dölja sidan helt i sökresultaten.

Mediefil

Du kan styra genomsökningstrafiken och förhindra att bilder, videor och ljudfiler visas i Googles sökresultat med robots.txt. (Obs! Andra sidor eller användare kan fortfarande länka till bilden/videon/ljudfilen.)

Resursfil

Med robots.txt kan du blockera resursfiler, till exempel oviktiga bild-, skript- eller formatfiler, om du anser att sidor som läses in utan dessa resurser inte påverkas nämnvärt av blockeringen. Men om Googles sökrobot får svårare att tolka en sida utan resurserna bör du inte blockera dem, eftersom sidorna som behöver dem då inte analyseras korrekt av Google.

Jag använder ett webbhotell

Om du använder ett webbhotell, t.ex. WIX, Drupal eller Blogger, kanske du inte behöver redigera robots.txt-filen direkt (det kanske inte ens är möjligt). I stället kan leverantören ha en sidinställning eller liknande som styr om sidan får genomsökas av sökrobotar.

Du tar reda på Google har genomsökt sidan genom att söka efter sidans webbadress på Google.

Om du vill dölja (eller sluta dölja) en sida lägger du till (eller tar bort) kravet på inloggning och söker på Google efter anvisningar om hur du ändrar sidans synlighet för sökmotorer hos webbvärden, till exempel så här: wix hide page from search engines

Begränsningar med robots.txt

Innan du skapar eller redigerar en robots.txt-fil bör du känna till vilka begränsningar den här typen av webbadressblockering har. I vissa fall kanske du vill använda andra tekniker så att dina webbadresser inte ska gå att hitta på webben.

  • Robots.txt-filen är inte tvingande
    Instruktionerna i en robots.txt-fil är inte tvingande för en sökrobot som besöker webbplatsen. I stället tjänar de som riktlinjer för de sökrobotar som genomsöker den. Googlebot och andra sökrobotar från seriösa företag följer instruktionerna i en robots.txt-fil, men alla sökrobotar gör kanske inte det. Därför är det bättre att blockera innehåll på andra sätt om du vill att sökrobotar inte ska kunna hitta det. Du kan till exempel lösenordsskydda privata filer på servern.
  • Syntaxen tolkas olika av olika sökrobotar
    Även om seriösa företags sökrobotar följer instruktionerna i en robots.txt-fil kan det hända att olika sökrobotar tolkar syntaxen på olika sätt. Du bör känna till rätt syntax för att hantera olika sökrobotar, eftersom en del kanske inte förstår vissa instruktioner.
  • En sida som blockerats med robot.txt kan fortfarande indexeras om andra webbplatser länkar till den
    Google varken genomsöker eller indexerar innehåll som blockerats med robots.txt, men vi kan fortfarande hitta och indexera en blockerad webbadress om det finns länkar till den någon annanstans på webben. Därför kan webbadressen och möjligen även annan offentligt tillgänglig information, t.ex. ankartext i länkar till sidan, ändå visas i Googles sökresultat. Det bästa sättet att förhindra att en webbadress visas i Googles sökresultat är att lösenordsskydda filerna på servern eller använda metataggen eller svarshuvudet noindex (eller ta bort sidan helt).
Obs! Om du kombinerar olika direktiv för genomsökning och indexering kan det hända att de motsäger varandra. Läs mer om hur direktiven ska konfigureras i avsnittet om att kombinera direktiv för genomsökning och indexering/visning i dokumentationen på webbplatsen Google Developers.

Testa om en sida blockeras av robots.txt

Du kan testa om en sida eller resurs blockeras av en robots.txt-regel.

Använd granskningsverktyget för webbadresser om du vill testa noindex-direktiv.

Var den här artikeln till hjälp?
Hur kan vi förbättra den?