​Robots.txt-raportti

Voiko Google käsitellä robots.txt-tiedostojasi

Robots.txt-raportista näet, mitkä robots.txt-tiedostot Google löysi sivustosi 20 pääasiallisesta isännästä, milloin ne viimeksi indeksoitiin ja mahdolliset varoitukset tai virheet. Raportin avulla voit myös pyytää robots.txt-tiedoston uudelleenindeksointia hätätilanteissa.

Robots.txt-tiedoston avulla estetään hakukoneita indeksoimasta sivustoasi. Jos haluat estää sisällön näkymisen hakutuloksissa, käytä noindex-tagia.

Tämä raportti on saatavilla vain verkkotunnustason omaisuuksille. Tämä tarkoittaa seuraavia:

Avaa robots.txt-raportti

 

Robots.txt-tiedostojen ja indeksoinnin tilan tarkistaminen

Verkkotunnus-omaisuuden raportti sisältää robots.txt-tiedostot omaisuuden 20 pääasiallisesta isännästä.

Näet seuraavat tiedot jokaisesta Search Consolen tarkastamasta robots.txt-tiedostosta:

  • Tiedostopolku – Koko URL-osoite, josta Google etsi robots.txt-tiedostoa. URL-osoite näkyy raportissa vain, jos sen tila on ollut Haettu tai Ei haettu 30 viime päivän aikana. Lue lisää kohdasta Robots.txt-tiedostojen sijainti.
  • Haun tila – Tiedoston viimeisimmän hakupyynnön tila. Seuraavat arvot ovat mahdollisia:
    • Ei haettu – Ei löydy (404): Tätä tiedostoa pyydettäessä tapahtui 404-virhe (tiedostoa ei ole olemassa). Jos olet lisännyt robots.txt-tiedoston mainittuun URL-osoitteeseen, mutta näet tämän virheilmoituksen, tarkista URL-osoite mahdollisten saatavuusongelmien varalta. Jos tiedoston tila on Ei löydy (404) 30 päivän ajan, se ei enää näy raportissa (mutta Google jatkaa sen tarkistamista taustalla). Robots.txt-tiedoston puuttuminen ei haittaa, ja se tarkoittaa, että Google voi indeksoida kaikki sivustosi URL-osoitteet. Lue kuitenkin lisää siitä, miten Google toimii, kun se havaitsee robots.txt-virheen.
    • Ei haettu – Muu syy: Tätä tiedostoa pyydettäessä tapahtui jokin muu ongelma. Katso lista hakemistoon lisäämisen ongelmista.
    • Haettu: Viimeisin indeksointiyritys palautti robots.txt-tiedoston. Tiedoston jäsennyksessä löydetyt ongelmat näkyvät Ongelmat-sarakkeessa. Google ei huomioi ongelmia sisältäviä rivejä ja käyttää niitä, jotka se voi jäsentää.
  • Tarkistettu – Milloin Google yritti viimeksi indeksoida tämän URL-osoitteen (paikallisessa ajassa).
  • Koko – Haetun tiedoston koko tavuina. Jos viimeisin hakuyritys epäonnistui, tämä on tyhjä.
  • Ongelmat: Taulukossa näkyy kaikkien tiedoston sisällön jäsennysongelmien määrä edellisen haun yhteydessä. Virheet estävät säännön käytön. Varoitukset eivät estä säännön käyttöä. Lue, miten Google toimii, kun se havaitsee robots.txt-virheen. Voit korjata jäsennysongelmia robots.txt-tiedoston tarkistustyökalulla.

Viimeksi haetun version tarkistaminen

Voit nähdä robots.txt-tiedoston viimeksi noudetun version klikkaamalla sitä raportin tiedostolistasta. Jos robots.txt-tiedostossa on virheitä tai varoituksia, ne korostetaan tiedoston sisällössä. Voit selata virheitä ja varoituksia nuolinäppäimillä.

Aiemmin haettujen versioiden tarkistaminen

Jos haluat nähdä tiettyä robots.txt-tiedostoa koskevat hakupyynnöt 30 viime päivän ajalta, klikkaa raportin tiedostolistasta tiedostoa ja klikkaa sitten Versiot. Klikkaa versiota, niin näet tiedoston sisällön. Pyyntö sisällytetään historiaan vain, jos haettu tiedosto tai hakutulos eroaa aiemmasta tiedostonhakupyynnöstä.

Jos Google havaitsi hakuvirheen viimeisimmässä hakuyrityksessä, Google käyttää viimeisintä onnistuneesti haettua versiota, jossa ei ole virheitä, enintään 30 päivän ajan.

Uudelleenindeksoinnin pyytäminen

Voit pyytää robots.txt-tiedoston uudelleenindeksointia, kun korjaat virheen tai teet tärkeän muutoksen.

Milloin uudelleenindeksointia pyydetään

Sinun ei yleensä tarvitse pyytää robots.txt-tiedoston uudelleenindeksointia, koska Google indeksoi robots.txt-tiedostot uudelleen usein. Seuraavissa tapauksissa sinun kannattaa kuitenkin pyytää robots.txt-tiedoston uudelleenindeksointia:

  • Muutit robots.txt-sääntöjä kumotaksesi joidenkin tärkeiden URL-osoitteiden eston ja haluat ilmoittaa siitä Googlelle nopeasti (huomaa, että tämä ei takaa, että URL-osoitteet indeksoidaan heti uudelleen).
  • Korjasit hakuvirheen tai muun kriittisen virheen.

Miten uudelleenindeksointia pyydetään

Voit pyytää uudelleenindeksointia valitsemalla Lisää asetuksia ‑kuvakkeen robots-tiedostolistalla olevan tiedoston vierestä ja klikkaamalla Pyydä uudelleenindeksointia.

Verkkosivustojen hosting-palveluiden isännöimät sivustot

Jos verkkosivustoasi isännöidään verkkosivustojen hosting-palvelussa, robots.txt-tiedoston muokkaaminen ei ehkä ole helppoa. Katso tällöin sivustosi isännän dokumentaatiosta, miten voit estää Googlea indeksoimasta tiettyjä sivuja tai lisäämästä niitä hakemistoon.

Huomaa, että useimpien käyttäjien tarkoituksena on estää tiedostojen näkyminen Google Haussa, ei estää Googlea indeksoimasta niitä. Jos tarkoituksenasi on estää indeksointi, etsi hosting-palvelustasi tietoja siitä, miten voit estää sivuja hakukoneilta.

Robots.txt-tiedostojen sijainti

Terminologia:

  • Protokolla (kutsutaan myös malliksi) on joko HTTP tai HTTPS.
  • Isäntä tarkoittaa URL-osoitteen protokollan (http:// tai https://) jälkeistä osaa polkuun asti. Isäntä m.de.example.com osoittaa siis kolmea mahdollista isäntää: m.de.example.com, de.example.com ja example.com, joista kullakin voi olla oma robots.txt-tiedostonsa.
  • Alkuperä on protokolla + isäntä, eli https://example.com/ tai https://m.example.co.es/.

RFC 9309:n mukaisesti robots.txt-tiedoston on oltava sivustosi kunkin protokolla- ja isäntäyhdistelmän juuressa.

Verkkotunnus-omaisuus:

  1. Search Console valitsee 20 pääasiallista isäntää indeksointinopeuden mukaan lajiteltuna. Raportissa voi näkyä enintään kaksi alkuperää kutakin verkkotunnusta kohti, eli taulukossa voi näkyä enintään 40 riviä. Jos et löydä jonkin isännän robots.txt-tiedoston URL-osoitetta, luo verkkotunnus-omaisuus puuttuvalle aliverkkotunnukselle.
  2. Search Console tarkistaa kunkin isännän osalta kaksi URL-osoitetta:
    • http://<host>/robots.txt
    • https://<host>/robots.txt
  3. Jos pyydetyn URL-osoitteen robots.txt-tiedoston tilaksi on merkitty Ei löydy 30 päivän ajan, Search Console ei näytä URL-osoitetta tässä raportissa, mutta Google jatkaa URL-osoitteen tarkistamista taustalla. Muiden tulosten osalta raportissa näkyy tarkistettu URL-osoite.

Jos kyseessä on URL-etuliite-omaisuus isäntätasolla (esim. https://example.com/), Search Console tarkistaa omaisuuden yhden alkuperän. Tämä tarkoittaa sitä, että omaisuuden https://example.com kohdalla Search Console tarkistaa vain osoitteen https://example.com/robots.txt, ei osoitteita http://example.com/robots.txt tai https://m.example.com/robots.txt.

Yleiset tehtävät

Robots.txt-tiedoston katseleminen

Voit avata raportissa mainitun robots.txt-tiedoston klikkaamalla sitä robots.txt-tiedostojen listasta. Avaa tiedosto selaimessa klikkaamalla Avaa robots.txt-tiedoston live-versio.

Voit avata minkä tahansa robots.txt-tiedoston verkossa selaimella. Katso alta, mihin URL-osoitteeseen sinun pitää siirtyä.

Missä robots.txt-tiedostot sijaitsevat

Robots.txt-tiedosto sijaitsee protokollan ja verkkotunnuksen juuressa. Saat URL-osoitteen selville, kun poistat kaikki tiedoston URL-osoitteen isännän (ja valinnaisen portin) jälkeiset osat ja lisäät loppuun "/robots.txt". Voit avata robots.txt-tiedoston selaimella, jos tiedosto löytyy. Aliverkkotunnukset tai ylätason verkkotunnukset eivät peri robots.txt-tiedostoja, ja vain yksi robots.txt-tiedosto voi vaikuttaa tiettyyn sivuun. Esimerkkejä:

Tiedoston URL-osoite Kyseiseen tiedostoon vaikuttavan robots.txt-tiedoston URL-osoite
http://example.com/home http://example.com/robots.txt
https://m.de.example.com/some/page/here/mypage https://m.de.example.com/robots.txt
https://example.com?pageid=234#myanchor https://example.com/robots.txt
https://images.example.com/flowers/daffodil.png https://images.example.com/robots.txt

Mikä robots.txt-tiedosto vaikuttaa sivuun tai kuvaan

Näin löydät sivuun tai kuvaan vaikuttavan robots.txt-tiedoston URL-osoitteen:

  1. Etsi sivun tai kuvan tarkka URL-osoite. Jos kyseessä on kuva, klikkaa kuvaa Google Chrome ‐selaimessa kakkospainikkeella ja valitse Kopioi kuvan URL-osoite.
  2. Poista URL-osoitteen loppu ylätason verkkotunnuksen (esim. .com, .org, .co.il) jälkeen ja lisää osoitteen loppuun /robots.txt. Kuvan https://images.example.com/flowers/daffodil.png robots.txt-tiedosto on siis https://images.example.com/robots.txt
  3. Avaa URL-osoite selaimessa ja varmista, että se on olemassa. Jos selaimesi ei voi avata tiedostoa, sitä ei ole olemassa.

Estääkö robots.txt Googlen

Lisätietoja

Oliko tästä apua?

Miten sivua voisi parantaa?

Tarvitsetko lisäapua?

Kokeile näitä vaiheita:

Haku
Tyhjennä haku
Sulje haku
Päävalikko
12741292265126400741
true
Ohjekeskushaku
true
true
true
true
true
83844
false
false