Informacje o pliku robots.txt

Plik robots.txt – wprowadzenie

Podstawowe informacje o plikach robots.txt: czym są i jak z nich korzystać

Co to jest plik robots.txt?

Plik robots.txt przekazuje robotom wyszukiwarek informacje, które strony i pliki w Twojej witrynie mogą indeksować. Używa się go głównie po to, by witryna nie była przeciążona żądaniami. Nie jest to mechanizm służący do ukrywania strony internetowej przed Google. Jeśli nie chcesz, by Twoja strona była indeksowana przez Google, użyj dyrektyw noindex. Możesz też zabezpieczyć stronę hasłem.

Do czego służy plik robots.txt?

Służy on głównie do zarządzania ruchem robotów indeksujących w witrynie i zazwyczaj stosuje się go do wykluczenia strony z indeksu Google – w zależności od typu pliku:

Typ strony Zarządzanie ruchem Wyłączenie z indeksu Google Opis
Strona internetowa

W przypadku stron internetowych (HTML, PDF lub w innych formatach niemultimedialnych możliwych do odczytania przez Google) plik robots.txt może służyć do zarządzania ruchem związanym z indeksowaniem, gdy nie chcesz, by serwer został przeciążony żądaniami robota Google, lub w celu uniknięcia indeksowania nieistotnych albo podobnych stron w witrynie.

Nie używaj pliku robots.txt po to, by ukryć swoje strony przed wyświetlaniem w wynikach wyszukiwania Google. Jeśli inne strony wskazują Twoją stronę przy użyciu tekstu opisowego, może ona być indeksowana, nawet jeśli nie zostanie odwiedzona. Jeśli chcesz zablokować wyświetlanie swojej strony w wynikach wyszukiwania, użyj innej metody – na przykład ochrony hasłem lub dyrektywy noindex.

Jeśli Twoja strona jest zablokowana za pomocą pliku robots.txt, w dalszym ciągu może pojawiać się w wynikach wyszukiwania, jednak bez opisu, i będzie wyglądać na przykład tak. Pliki obrazów, wideo, PDF i inne niż HTML zostaną wykluczone. Jeśli zobaczysz taki wynik wyszukiwania dotyczący Twojej strony i zechcesz go naprawić, usuń wpis w pliku robots.txt, który ją blokuje. Jeśli chcesz całkowicie zablokować wyświetlanie strony w wynikach wyszukiwania, użyj innej metody.

Plik multimedialny

Plik robots.txt pozwala zarządzać ruchem indeksowania oraz wykluczać pliki graficzne, wideo i dźwiękowe z wyników wyszukiwania Google. Pamiętaj, że pomimo tego inne strony lub osoby mogą kierować użytkowników do Twoich plików graficznych, wideo czy dźwiękowych za pomocą linków.

Plik zasobu

Za pomocą pliku robots.txt możesz zablokować pliki zasobów, takie jak nieistotny obraz, skrypt czy styl, jeśli uważasz, że brak tych zasobów nie wpłynie istotnie na załadowane strony. Jeśli jednak brak tych zasobów może utrudniać robotowi Google interpretację strony, to nie należy ich blokować, bo inaczej nie uda nam się skutecznie przeanalizować stron, które są z nimi ściśle związane.

Korzystam z usługi hostingowej

Jeśli korzystasz z usługi hostingu witryn, takiej jak Wix, Drupal czy Blogger, bezpośrednia edycja pliku robots.txt może nie być konieczna lub możliwa. Dostawca usługi może korzystać ze strony ustawień wyszukiwarki lub innego mechanizmu, by informować wyszukiwarki o tym, czy indeksowanie Twojej strony jest dozwolone.

Aby sprawdzić, czy Twoja strona została przez nas zindeksowana, wyszukaj w Google jej adres URL.

Jeśli chcesz ukryć (lub odkryć) swoją stronę w wyszukiwarkach, dodaj (lub usuń) wszelkie istniejące wymagania dotyczące logowania się na stronie i wyszukaj w usłudze hostingowej instrukcje dotyczące zmiany widoczności strony w wyszukiwarkach, na przykład: wix ukrywanie strony przed wyszukiwarkami.

Ograniczenia pliku robots.txt

Przed utworzeniem lub edycją pliku robots.txt dobrze jest poznać ograniczenia tej metody blokowania adresów URL. Czasem warto rozważyć użycie innych mechanizmów, by zyskać pewność, że wybranych adresów URL nie da się znaleźć w sieci.

  • Niektóre wyszukiwarki mogą nie obsługiwać dyrektyw pliku robots.txt
    Instrukcje w plikach robots.txt nie mogą narzucać zachowania robotowi indeksującemu Twoją witrynę – to od niego zależy przestrzeganie instrukcji. Googlebot i inne znane roboty indeksujące stosują się do poleceń w pliku robots.txt, jednak może się zdarzyć, że niektóre roboty nie będą tego robić. Dlatego, jeśli chcesz zabezpieczyć dane przed robotami indeksującymi, lepiej wykorzystać inne metody blokowania dostępu, np. zabezpieczając hasłem prywatne pliki umieszczone na serwerze.
  • Każdy robot inaczej interpretuje składnię
    Pomimo tego, że znane roboty indeksujące stosują się do poleceń zawartych w pliku robots.txt, każdy z nich może rozumieć je inaczej. Aby przekazać instrukcje różnym robotom, musisz użyć odpowiedniej składni, bo część z nich może nie rozpoznawać pewnych poleceń.
  • Strona zablokowana za pomocą pliku robots.txt może być nadal indeksowana, jeśli prowadzą do niej linki z innych witryn
    Google nie indeksuje zawartości blokowanej przez plik robots.txt, ale w dalszym ciągu możemy zindeksować zablokowany adres URL, jeśli znajdziemy go w innym miejscu w sieci. Taki URL (a potencjalnie również inne upublicznione informacje – np. tekst kotwicy w linkach do strony) może więc mimo to pojawić się w wynikach wyszukiwania Google. Aby całkowicie wykluczyć adres URL z wyników wyszukiwania Google, zabezpiecz hasłem pliki na swoim serwerze albo użyj metatagu noindex lub nagłówka odpowiedzi (bądź całkowicie usuń stronę).
Uwaga: połączenie kilku poleceń indeksujących może spowodować, że będą się one wzajemnie wykluczały. Informacje o poprawnym konfigurowaniu tych poleceń znajdziesz w sekcji na temat łączenia poleceń sterujących indeksowaniem i wyświetlaniem treści w dokumentacji Google Developers.

Testowanie strony blokowanej przy użyciu pliku robots.txt

Możesz sprawdzić, czy strona lub zasób są blokowane przez regułę pliku robots.txt.

Aby sprawdzić działanie dyrektyw noindex, użyj narzędzia do sprawdzania adresów URL.

Czy to było pomocne?
Jak możemy ją poprawić?