Blokowanie URL-i w pliku robots.txt

Informacje o plikach robots.txt

Co to jest plik robots.txt?

Taki plik przekazuje robotom wyszukiwarek informacje, jakie strony i pliki w Twojej witrynie mogą indeksować. Używa się go głównie po to, by witryna nie była przeciążona żądaniami. Nie jest to mechanizm służący do ukrywania strony internetowej przed Google. Jeśli nie chcesz, by Twoja strona była indeksowana przez Google, użyj tagów noindex lub dyrektyw. Możesz też zabezpieczyć stronę hasłem.

Do czego służy plik robots.txt?

Służy on głównie do zarządzania ruchem robotów indeksujących w witrynie, ale czasami stosuje się go do wykluczenia strony z indeksu Google – w zależności od typu pliku:

Typ strony Zarządzanie ruchem Wyłączenie z indeksu Google Opis
Strona internetowa

W przypadku stron internetowych (HTML, PDF lub w innych formatach niemultimedialnych możliwych do odczytania przez Google) plik robots.txt może służyć do zarządzania ruchem związanym z indeksowaniem, gdy nie chcesz, by serwer został przeciążony żądaniami robota Google, lub w celu uniknięcia indeksowania nieistotnych albo podobnych stron w witrynie.

Nie używaj pliku robots.txt po to, by ukryć swoje strony przed wyświetlaniem w wynikach wyszukiwania Google. Jeśli inne strony wskazują Twoją stronę przy użyciu tekstu opisowego, może ona być indeksowana, nawet jeśli nie zostanie odwiedzona. Jeśli chcesz zablokować wyświetlanie swojej strony w wynikach wyszukiwania, użyj innej metody – na przykład ochrony hasłem lub dyrektywy noindex.

Jeśli Twoja strona jest zablokowana w pliku robots.txt, w dalszym ciągu może pojawiać się w wynikach wyszukiwania, jednak bez opisu, i będzie wyglądać na przykład tak. Pliki obrazów, wideo, PDF i inne niż HTML zostaną wykluczone. Jeśli zobaczysz taki wynik wyszukiwania dotyczący Twojej strony i zechcesz go naprawić, usuń wpis w pliku robots.txt, który ją blokuje. Jeśli chcesz całkowicie zablokować wyświetlanie strony w wynikach wyszukiwania, użyj innej metody.

Plik multimedialny

Plik robots.txt pozwala zarządzać ruchem indeksowania oraz wykluczać pliki graficzne, wideo i dźwiękowe z wyników wyszukiwania Google. Pamiętaj, że pomimo tego inne strony lub osoby mogą kierować użytkowników do Twoich plików graficznych, wideo czy dźwiękowych za pomocą linków.

Plik zasobu

Za pomocą pliku robots.txt możesz zablokować pliki zasobów, takie jak nieistotny obraz, skrypt czy styl, jeśli uważasz, że brak tych zasobów nie wpłynie istotnie na załadowane strony. Jeśli jednak brak tych zasobów może utrudniać robotowi Google interpretację strony, to nie należy ich blokować, bo inaczej nie uda nam się skutecznie przeanalizować stron, które są z nimi ściśle związane.

Korzystam z usługi hostingowej

Jeśli korzystasz z dostawcy hostingu witryn, takiego jak Wix, Drupal czy Blogger, bezpośrednia edycja pliku robots.txt może nie być konieczna lub dostępna. Dostawca usługi może korzystać z innego ustawienia lub mechanizmu, by informować wyszukiwarki o tym, czy indeksowanie Twojej strony jest dozwolone.

Aby sprawdzić, czy Twoja strona została przez nas zindeksowana, wyszukaj w Google jej adres URL.

Jeśli chcesz ukryć stronę (lub to anulować), dodaj (bądź usuń) wymagania logowania na stronie i wyszukaj w Google instrukcje zmieniania ustawień widoczności strony w wyszukiwarkach, na przykład: jak ukryć strony z wix przed wyszukiwarkami.

Ograniczenia pliku robots.txt

Przed utworzeniem lub edycją pliku robots.txt dobrze jest poznać ograniczenia tej metody blokowania adresów URL. Czasem warto rozważyć użycie innych mechanizmów, by zyskać pewność, że wybranych adresów URL nie da się znaleźć w sieci.

  • Instrukcje w pliku robots.txt to tylko polecenia
    Instrukcje w plikach robots.txt nie mogą narzucać zachowania robotowi indeksującemu Twoją witrynę – są to polecenia dla robotów indeksujących. Googlebot i inne znane roboty indeksujące stosują się do poleceń w pliku robots.txt, jednak może się zdarzyć, że niektóre roboty nie będą tego robić. Dlatego, jeśli chcesz zabezpieczyć dane przed robotami indeksującymi, lepiej wykorzystać inne metody blokowania dostępu, np. zabezpieczając hasłem prywatne pliki umieszczone na serwerze.
  • Każdy robot inaczej interpretuje składnię
    Pomimo tego, że znane roboty indeksujące stosują się do poleceń zawartych w pliku robots.txt, każdy z nich może rozumieć je inaczej. Aby przekazać instrukcje różnym robotom, musisz użyć odpowiedniej składni, bo część z nich może nie rozpoznawać pewnych poleceń.
  • Strona z plikiem robots.txt może być nadal indeksowana, jeśli prowadzą do niej linki z innych witryn
    Google nie indeksuje zawartości blokowanej przez plik robots.txt, ale w dalszym ciągu możemy zindeksować zablokowany adres URL, jeśli znajdziemy go w innym miejscu w sieci. Taki URL (a potencjalnie również inne upublicznione informacje – np. tekst kotwicy w linkach do strony) może więc mimo to pojawić się w wynikach wyszukiwania Google. Aby całkowicie wykluczyć adres URL z wyników wyszukiwania Google, zabezpiecz hasłem pliki na swoim serwerze albo użyj metatagu noindex lub nagłówka odpowiedzi (bądź całkowicie usuń stronę).
Uwaga: połączenie kilku poleceń indeksujących może spowodować, że będą się one wzajemnie wykluczały. Informacje o poprawnym konfigurowaniu tych poleceń znajdziesz w sekcji na temat łączenia poleceń sterujących indeksowaniem i wyświetlaniem treści w dokumentacji Google Developers.

Testowanie strony z blokowaniem ustawionym w pliku robots.txt

Możesz sprawdzić, czy strona lub zasób są blokowane przez regułę pliku robots.txt.

Aby sprawdzić działanie dyrektyw noindex, użyj narzędzia do sprawdzania adresów URL.

Czy ten artykuł był pomocny?
Jak możemy ją poprawić?