Tietoja robots.txt-tiedostosta

Usein kysyttyä roboteista

Yleisiä robots-kysymyksiä

Robots.txt-kysymyksiä

Robots-sisällönkuvauskenttien kysymykset

Kysymyksiä X-Robots-Tag-HTTP-otsikoista

Puuttuuko sivulta usein kysytty kysymys? Voit esittää lisäkysymyksiä Verkkovastaavien keskusteluryhmässä.

Yleisiä robots-kysymyksiä

Täytyykö sivustollani olla robots.txt-tiedosto?

Ei. Kun Googlebot vierailee verkkosivustolla, pyydämme ensin lupaa indeksointiin hakemalla robots.txt-tiedostoa. Jos sivustolla ei ole robots.txt-tiedostoa, robots-sisällönkuvauskenttiä tai X-Robots-Tag-HTTP-otsikoita, se indeksoidaan yleensä normaalisti.

Mitä menetelmää on parasta käyttää?

Tämä vaihtelee. Jokaisella näistä menetelmistä on hyvät puolensa:

  1. robots.txt: Käytä tätä, jos sisällön indeksointi aiheuttaa sinulle palvelinongelmia. Esimerkiksi loputtomien kalenteriskriptien indeksointi kannattaa estää. Robots.txt-tiedostolla ei kannata piilottaa yksityistä sisältöä (käytä tähän palvelintodennusta) tai osoittaa ensisijaisuutta (lue lisää ohjekeskuksessa). Jos haluat varmistaa, ettei tiettyä URL-osoitetta indeksoida, käytä robots-sisällönkuvauskenttää tai X-Robots-Tag-HTTP-otsikkoa.
  2. Robots-sisällönkuvauskenttä: Käytä tätä, jos haluat hallita yksittäisen HTML-sivun näkymistä hakutuloksissa tai varmistaa, ettei sitä näytetä ollenkaan.
  3. X-Robots-Tag-HTTP-otsikko: Käytä tätä, jos haluat hallita muun kuin HTML-sisällön näkymistä hakutuloksissa tai varmistaa, ettei sitä näytetä ollenkaan.

Voinko poistaa jonkun muun sivuston näillä menetelmillä?

Et. Näitä menetelmiä voi käyttää vain, jos voit muokata sivuston koodia tai lisätä tiedostoja. Jos haluat poistaa sisältöä kolmannen osapuolen sivustolta, ota yhteyttä ylläpitäjään ja pyydä sisällön poistamista.

Miten vähennän Googlen indeksointitiheyttä sivustollani?

Voit yleensä muuttaa indeksointitiheyttä Google Search Console ‑tililläsi.

Robots.txt-kysymyksiä

Käytän samaa robots.txt-tiedostoa useilla sivustoilla. Voinko käyttää kokonaista URL-osoitetta suhteellisen polun sijaan?

Et. Robots.txt-tiedoston komennot (paitsi Sitemap:) toimivat vain suhteellisiin polkuihin.

Voiko robots.txt-tiedosto sijaita alihakemistossa?

Ei. Tiedoston on sijaittava sivuston ylimmän tason kansiossa.

Haluan estää yksityisen kansion. Voiko muita estää lukemasta robots.txt-tiedostoani?

Ei. Muut käyttäjät voivat lukea robots.txt-tiedostosi. Yksityisiä kansioita tai tiedostonimiä ei tule listata robots.txt-tiedostossa. Erilaisten robots.txt-tiedostojen näyttämistä käyttäjäagenttien tai muiden tekijöiden perusteella ei suositella.

Voiko indeksoinnin sallia vain allow-komennolla?

Ei. Allow-komennon käyttäminen ei ole pakollista. Allow-komentoa käytetään samassa robots.txt-tiedostossa olevien disallow-komentojen ohittamiseen.

Mitä tapahtuu, jos robots.txt-tiedostossa on virhe tai käytän komentoa, jota ei tueta?

Indeksointirobotit ovat joustavia, eivätkä pienet robots.txt-tiedoston virheet sekoita indeksointiprosessia. Pahimmillaan komento voidaan jättää huomiotta, jos se on virheellinen tai sitä ei tueta. Tästä huolimatta on hyvä muistaa, ettei Google lue ajatuksia tulkitessaan robots.txt-tiedostoa, vaan tekee päätöksiä tiedoston varsinaisen sisällön pohjalta. Jos tiedät, että robots.txt-tiedostossa on ongelmia, niiden korjaaminen on yleensä helppoa.

Millä ohjelmalla robots.txt-tiedosto kannattaa luoda?

Voit käyttää mitä tahansa ohjelmaa, joka luo kelvollisia tekstitiedostoja. Tavallisia robots.txt-tiedoston luomiseen käytettäviä ohjelmia ovat Muistio, TextEdit, vi ja emacs. Lue lisää robots.txt-tiedostojen luomisesta. Kun olet luonut tiedoston, vahvista se robots.txt-testaustyökalulla.

Häviääkö sivu hakutuloksista, jos estän sen indeksoinnin Googlelta robots.txt:n disallow-komennolla?

Jos estät Googlea indeksoimasta sivua, sivu todennäköisesti poistetaan Googlen hakemistosta. 

Robots.txt:n disallow ei kuitenkaan takaa, ettei sivu näy hakutuloksissa. Google voi silti päättää sivulle johtavien linkkien tai muiden ulkoisten tekijöiden perusteella, että sivun sisältö on olennaista. Jos haluat estää tietyn sivun indeksoinnin, käytä robots-sisällönkuvauskenttää noindex tai X-Robots-Tag-HTTP-otsikkoa. Jos teet niin, älä estä sivun indeksointia robots.txt-tiedostossa, koska tagi huomataan ja sitä noudatetaan vain jos sivu on ensin indeksoitu.

Kuinka nopeasti robots.txt-tiedoston muutokset näkyvät hakutuloksissa?

Ensin robots.txt-tiedoston välimuistiin tallennettu versio päivitetään. Sisältöä pidetään välimuistissa yleensä enintään päivän ajan. Muutoksen havaitsemisen jälkeen yksittäisen URL-osoitteen indeksointi voi kestää jonkin aikaa, sillä kyse on monimutkaisesta prosessista. Emme osaa tarkkaan sanoa, kauanko tässä kestää. Muista myös, että vaikka robots.txt-tiedosto estää tietyn URL-osoitteen eikä sitä indeksoida, se voi silti näkyä hakutuloksissa. Jos haluat nopeuttaa Googlelta estämäsi sivun poistamista, lähetä poistopyyntö Google Search Consolessa.

Miten keskeytän sivustoni indeksoinnin väliaikaisesti?

Voit keskeyttää indeksoinnin väliaikaisesti palauttamalla kaikista URL-osoitteista, myös robots.txt-tiedostosta, HTTP-vastauskoodin 503. Robots.txt-tiedoston käyttöä yritetään uudelleen säännöllisin välein, kunnnes sen käyttö onnistuu taas. Indeksoinnin estämistä robots.txt-tiedostoa muuttamalla ei suositella.

Palvelin ei tee eroa kirjankokojen välillä. Miten estän joidenkin kansioiden indeksoinnin kokonaan?

Kirjainkoko vaikuttaa robots.txt-tiedoston komentoihin. Varmista ensisijaisuuden määritystavoilla, että vain yksi versio URL-osoitteesta indeksoidaan. Näin voit yksinkertaistaa robots.txt-tiedostoasi. Jos tämä ei ole mahdollista, suosittelemme luettelemaan kansion nimen tavalliset versiot tai lyhentämään nimeä mahdollisimman paljon, esimerkiksi muutamaan ensimmäiseen merkkiin. Kaikkien /MyPrivateFolder-nimen isojen ja pienten kirjainten tuottamien versioiden sijaan voit listata nimen /MyP mahdolliset versiot (jos tiedät varmasti, ettei näitä kirjaimia vasta mikään muu indeksoitava URL-osoite). Voit myös käyttää robots-sisällönkuvauskenttää tai X-Robots-Tag-HTTP-otsikkoa, jos indeksointi itsessään ei ole ongelma.

Kaikki URL-osoitteeni, myös robots.txt-tiedosto, palauttavat 403 Kielletty ‑vastauksen. Miksi sivustoni indeksoidaan silti?

HTTP-vastauskoodi 403, kuten kaikki muutkin 4-alkuiset HTTP-vastauskoodit, tulkitaan niin, että robots.txt-tiedostoa ei ole. Tästä syystä indeksointirobotti olettaa, että kaikki sivuston URL-osoitteet voidaan indeksoida. Jos haluat estää sivuston indeksoinnin, disallow-komennon sisältävä robots.txt on palautettava normaalisti HTTP-vastauskoodilla 200 OK.

Robots-sisällönkuvauskenttien kysymykset

Korvaako robots-sisällönkuvauskenttä robots.txt-tiedoston?

Ei. Robots.txt-tiedosto määrittää käytettävät sivut. Robots-sisällönkuvauskenttä määrittää, indeksoidaanko sivu. Sivu on kuitenkin indeksoitava ensin, jotta kenttä havaitaan. Jos sivun indeksointi tuottaa ongelmia (esim. pidempiä latausaikoja palvelimella), käytä robots.txt-tiedostoa. Jos kyse on sivun näkymisestä hakutuloksissa, käytä hallinnointiin sen sijaan robots-sisällönkuvauskenttää.

Voiko robots-sisällönkuvauskentän avulla estää sivun osan indeksoinnin?

Ei. Robots-sisällönkuvauskenttä koskee kokonaista sivua.

Voiko robots-sisällönkuvauskenttää käyttää <head>-osion ulkopuolella?

Ei. Tällä hetkellä robots-sisällönkuvauskentän on oltava <head>-osiossa.

Estääkö robots-sisällönkuvauskenttä indeksoinnin?

Ei. Vaikka robots-sisällönkuvauskentän arvo sillä hetkellä olisi noindex, URL-osoite on indeksoitava ajoittain uudelleen sisällönkuvauskentän muutosten havaitsemiseksi.

Miten robots-sisällönkuvauskenttä nofollow eroaa rel="nofollow"-linkkiattribuutista?

Robots-sisällönkuvauskenttä nofollow koskee kaikkia sivun linkkejä. rel="nofollow"-linkkiattribuutti koskee vain tiettyjä sivulla olevia linkkejä. Lue lisää rel="nofollow"-linkkiattribuutista ohjekeskuksen Käyttäjien luoma roskasisältö- ja rel="nofollow"-artikkeleista.

Kysymyksiä X-Robots-Tag-HTTP-otsikoista

Miten tarkistan URL-osoitteen X-Robots-Tag-arvon?

Voit tarkistaa palvelimen otsikot verkkopohjaisella palvelimen otsikkotyökalulla tai Google Search Consolen Hae kuten Googlebot ‑toiminnolla.

Oliko tästä apua?
Miten sivua voisi parantaa?