Tietoja robots.txt-tiedostosta

Robots.txt-tiedostojen esittely

Robots.txt-tiedostojen perusteet: mitä ne ovat ja miten niitä käytetään

Mikä robots.txt-tiedosto on?

Robots.txt-tiedosto kertoo hakukoneen indeksointirobotille, mitä sivustosi sivuja tai tiedostoja robotti voi ja ei voi pyytää. Tämän tarkoituksena on välttää sivustollesi kohdistuvat suuret pyyntömäärät: se ei ole tapa pitää verkkosivu poissa Googlesta. Jos haluat pitää sivun poissa Googlesta, käytä sivulla noindex-tageja tai ‑komentoja tai salasanasuojausta.

Mihin robots.txt-tiedostoa käytetään?

Robots.txt-tiedostoa käytetään pääasiassa sivustolle kohdistuvan indeksointirobottiliikenteen hallintaan ja joskus myös sivun pitämiseen poissa Googlesta tiedostotyypistä riippuen:

Sivutyyppi Liikenteenhallinta Piilottaa Googlelta Kuvaus
Verkkosivu

Robots.txt-tiedostoa voidaan käyttää verkkosivujen (HTML, PDF ja muut Googlen luettavissa olevat ei-mediatyypit) indeksointiliikenteen hallintaan, jos uskot, että Googlen indeksointirobotti lähettäisi palvelimelle liikaa pyyntöjä, tai haluat välttää sivustojen epäolennaisten tai keskenään samanlaisten sivujen indeksoinnin.

Robots.txt-tiedoston käyttäminen verkkosivujen piilottamiseen Googlen hakutuloksista ei ole suositeltavaa. Tämä johtuu siitä, että muut sivut saattavat linkittää sivullesi kuvailevalla tekstillä. Tällöin sivusi saatetaan lisätä hakemistoon ilman sivulla käymistä. Sivun näkymisen hakutuloksissa voi estää muilla keinoin, esimerkiksi salasanasuojauksella tai noindex-tageilla tai ‑komennoilla.

Jos sivu on estetty robots.txt-tiedostolla, se voi silti näkyä hakutuloksissa ilman kuvausta (esimerkki). Kuvatiedostoja, videotiedostoja, PDF-tiedostoja ja muita ei-HTML-tiedostoja ei huomioida. Jos sivusi näkyy tällaisena hakutuloksena ja haluat korjata sen, poista sivun estävä robots.txt-merkintä. Jos haluat piilottaa sivun kokonaan hausta, käytä toista keinoa.

Mediatiedosto

Robots.txt-tiedostolla voit hallita liikennettä ja estää kuva-, video- ja äänitiedostoja näkymästä Googlen hakutuloksissa. (Huomaa, että tämä ei estä muita sivuja tai käyttäjiä linkittämästä tällaiseen tiedostoon.)

Resurssitiedosto

Voit estää resurssitiedostojen (esimerkiksi tarpeettomien kuva-, skripti- tai tyylitiedostojen) näkymisen robots.txt-tiedostolla jos uskot, ettei sivujen ymmärrettävyys kärsi merkittävästi lataamisesta ilman näitä resursseja. Sinun ei kuitenkaan kannata estää näitä resursseja, jos niiden puute tekee sivusta Googlen indeksointirobotille vaikeammin ymmärrettävän. Muuten Google ei pysty täysin analysoimaan sivuja, joihin nämä resurssit vaikuttavat.

Käytän hosting-palvelua

Jos käytät Wixiä, Drupalia, Bloggeria tai muuta sivuston hosting-palvelua, varsinaisen robots.txt-tiedoston luominen tai muokkaaminen ei välttämättä ole tarpeen. Sen sijaan palvelu voi kertoa hakukoneille hakuasetussivulla tai vastaavalla, kannattaako sivu indeksoida.

Voit katsoa, onko Google indeksoinut sivusi, hakemalla URL-osoitetta Googlesta.

Jos haluat piilottaa sivun hakukoneilta tai tuoda sen niiden näkyviin, lisää tai poista sivun kirjautumisvaatimus ja hae ohjeita sivun hakukonenäkyvyyden hallintaan kyseisessä hosting-palvelussa, esimerkiksi wix piilota sivu hakukoneilta.

Robots.txt-tiedoston rajoitukset

Ennen robots.txt-tiedoston luomista tai muokkaamista on hyvä tuntea tämän URL-estotavan rajoitukset. Sinun kannattaa harkita myös muita tapoja varmistaaksesi, että URL-osoitteesi eivät löydy verkosta.

  • Robots.txt-ohjeet eivät ole sääntöjä
    Robots.txt-tiedostojen komennot eivät ole sääntöjä, joita kaikkien indeksointirobottien on noudatettava. Sen sijaan näitä komentoja kannattaa ajatella ohjeina. Googlebot ja muut hyvämaineiset indeksointirobotit tottelevat robots.txt-tiedoston ohjeita, mutta muut indeksointirobotit eivät välttämättä tee niin. Tämän vuoksi suosittelemme yksityisten tietojen suojaamiseen muita estämistapoja, kuten palvelimellasi olevien yksityisten tietojen suojaamista salasanalla.
  • Eri indeksointirobotit tulkitsevat syntaksia eri tavoilla
    Vaikka kunnialliset indeksointirobotit noudattavat robots.txt-tiedoston ohjeita, jotkin robotit tulkitsevat niitä eri tavalla. Sinun on tiedettävä oikea syntaksi kunkin robotin kanssa viestimiseen, sillä kaikki robotit eivät ymmärrä kaikkia ohjeita.
  • Vaikka sivulla on robots.txt-tiedosto, se voidaan silti lisätä hakemistoon, jos muut sivustot linkittävät siihen
    Vaikka Google ei lue tai indeksoi robots.txt-tiedoston estämää sisältöä, voimme edelleen löytää ja indeksoida estetyn URL-osoitteen, jos siihen johtaa linkkejä muilta sivustoilta. Tämän seurauksena URL-osoite ja mahdolliset muut julkisesti saatavilla olevat tiedot, kuten sivulle johtavien linkkien ankkuriteksti, voivat edelleen näkyä Googlen hakutuloksissa. Voit estää URL-osoitteen näkymisen Googlen hakutuloksissa suojaamalla palvelimella olevat tiedostot salasanalla, käyttämällä noindex-sisällönkuvauskenttää tai vastauksen otsikkoa tai poistamalla sivun kokonaan.
Huom. Useiden indeksointiohjeiden yhdistäminen saattaa aiheuttaa ristiriitoja eri ohjeiden välille. Lisätietoja näiden ohjeiden oikeasta määrittämistavasta on Google-kehittäjien dokumentaation Indeksoinnin ja näyttöohjeiden yhdistäminen ‑osiossa.

Robots.txt-estojen testaaminen sivulla

Voit testata, estääkö robots.txt-sääntö sivun tai resurssin.

Käytä noindex-komentojen testaamisen URL-tarkastustyökalua.

Oliko tästä apua?
Miten sivua voisi parantaa?