Plik robots.txt – wprowadzenie

Plik robots.txt przekazuje robotom wyszukiwarek informacje, do których adresów URL w Twoje witrynie roboty te mogą uzyskać dostęp. Używa się go głównie po to, aby witryna nie była przeciążona żądaniami. Nie jest to mechanizm służący do ukrywania strony internetowej przed Google. Jeśli nie chcesz, aby Twoja strona była indeksowana przez Google, zablokuj indeksowanie za pomocą tagu noindex lub zabezpiecz ją hasłem.

Do czego służy plik robots.txt?

Służy on głównie do zarządzania ruchem robotów indeksujących w witrynie i zazwyczaj stosuje się go do wykluczenia pliku z indeksu Google w zależności od jego typu:

Wpływ pliku robots.txt na różne typy plików

Strona internetowa

Wpływ pliku robots.txt na różne typy plików
Strona internetowa	Możesz użyć pliku robots.txt na stronach internetowych (HTML, PDF lub w innych formatach niemultimedialnych możliwych do odczytania przez Google) do zarządzania ruchem związanym z indeksowaniem, aby serwer nie został przeciążony żądaniami robota Google albo żeby zapobiec indeksowaniu nieistotnych lub podobnych stron w witrynie. Ostrzeżenie: nie używaj pliku robots.txt do ukrywania swoich stron internetowych (w tym plików PDF i innych formatów tekstowych obsługiwanych przez Google) w wynikach wyszukiwania Google. Jeśli inne strony wskazują Twoją stronę przy użyciu tekstu opisowego, Google może zindeksować URL bez odwiedzania strony. Jeśli chcesz zablokować wyświetlanie swojej strony w wynikach wyszukiwania, użyj innej metody – na przykład ochrony hasłem lub dyrektywy `noindex`. Jeśli Twoja strona jest zablokowana za pomocą pliku robots.txt, jej adres URL nadal może pojawiać się w wynikach wyszukiwania, ale bez opisu. Umieszczone na zablokowanej stronie pliki graficzne, wideo, PDF i inne pliki w formacie innym niż HTML też będą wykluczone z indeksowania, chyba że odwołują się do nich inne strony, które są dozwolone do indeksowania. Jeśli zobaczysz taki wynik wyszukiwania dotyczący Twojej strony i zechcesz go naprawić, usuń wpis w pliku robots.txt, który ją blokuje. Jeśli chcesz całkowicie zablokować wyświetlanie strony w wyszukiwarce, użyj innej metody.
Plik multimedialny	Plik robots.txt pozwala zarządzać ruchem indeksowania oraz wykluczać pliki graficzne, wideo i dźwiękowe z wyników wyszukiwania Google. Mimo to inne strony lub osoby mogą kierować użytkowników do Twoich plików graficznych, wideo czy dźwiękowych za pomocą linków. Więcej informacji o zapobieganiu wyświetlaniu obrazów w Google Więcej informacji o usuwaniu plików wideo i ograniczaniu ich wyświetlania w Google
Plik zasobu	Za pomocą pliku robots.txt możesz zablokować pliki zasobów, takie jak nieistotny obraz, skrypt czy styl, jeśli uważasz, że ich brak nie wpłynie istotnie na załadowane strony. Jeśli jednak brak tych zasobów może utrudniać robotowi Google interpretację strony, nie należy ich blokować – może nam to uniemożliwić skuteczne przeanalizowanie stron, które są z nimi ściśle związane.

Możesz użyć pliku robots.txt na stronach internetowych (HTML, PDF lub w innych formatach niemultimedialnych możliwych do odczytania przez Google) do zarządzania ruchem związanym z indeksowaniem, aby serwer nie został przeciążony żądaniami robota Google albo żeby zapobiec indeksowaniu nieistotnych lub podobnych stron w witrynie.

Jeśli Twoja strona jest zablokowana za pomocą pliku robots.txt, jej adres URL nadal może pojawiać się w wynikach wyszukiwania, ale bez opisu. Umieszczone na zablokowanej stronie pliki graficzne, wideo, PDF i inne pliki w formacie innym niż HTML też będą wykluczone z indeksowania, chyba że odwołują się do nich inne strony, które są dozwolone do indeksowania. Jeśli zobaczysz taki wynik wyszukiwania dotyczący Twojej strony i zechcesz go naprawić, usuń wpis w pliku robots.txt, który ją blokuje. Jeśli chcesz całkowicie zablokować wyświetlanie strony w wyszukiwarce, użyj innej metody.

Plik multimedialny

Plik robots.txt pozwala zarządzać ruchem indeksowania oraz wykluczać pliki graficzne, wideo i dźwiękowe z wyników wyszukiwania Google. Mimo to inne strony lub osoby mogą kierować użytkowników do Twoich plików graficznych, wideo czy dźwiękowych za pomocą linków.

Plik zasobu Za pomocą pliku robots.txt możesz zablokować pliki zasobów, takie jak nieistotny obraz, skrypt czy styl, jeśli uważasz, że ich brak nie wpłynie istotnie na załadowane strony. Jeśli jednak brak tych zasobów może utrudniać robotowi Google interpretację strony, nie należy ich blokować – może nam to uniemożliwić skuteczne przeanalizowanie stron, które są z nimi ściśle związane.

Ograniczenia pliku robots.txt

Zanim utworzysz lub zmodyfikujesz plik robots.txt, zapoznaj się z ograniczeniami tej metody blokowania adresów URL. W zależności od celów i sytuacji warto rozważyć użycie innych mechanizmów, aby uzyskać pewność, że wybranych adresów URL nie da się znaleźć w sieci.

Niektóre wyszukiwarki mogą nie obsługiwać reguł pliku robots.txt.
Instrukcje w plikach robots.txt nie mogą narzucać zachowania robotowi indeksującemu Twoją witrynę – to od niego zależy przestrzeganie instrukcji. Googlebot i inne znane roboty indeksujące stosują się do poleceń w pliku robots.txt, jednak może się zdarzyć, że niektóre roboty nie będą tego robić. Dlatego aby ukryć dane przed robotami indeksującymi, lepiej wykorzystać inne metody blokowania dostępu, np. zabezpieczyć hasłem prywatne pliki umieszczone na serwerze.
Każdy robot inaczej interpretuje składnię.
Pomimo że znane roboty indeksujące stosują się do reguł w pliku robots.txt, każdy z nich może rozumieć je inaczej. Aby przekazać instrukcje różnym robotom, musisz użyć odpowiedniej składni, bo część z nich może nie rozpoznawać pewnych poleceń.
Strona niedozwolona w pliku robots.txt nadal może być indeksowana, jeśli prowadzą do niej linki z innych witryn.
Google nie indeksuje zawartości blokowanej przez plik robots.txt, ale w dalszym ciągu możemy zindeksować zablokowany adres URL, jeśli znajdziemy link do niego w innym miejscu w sieci. Taki URL (a potencjalnie również inne upublicznione informacje – np. tekst kotwicy w linkach do strony) może więc mimo to pojawić się w wynikach wyszukiwania Google. Aby całkowicie wykluczyć adres URL z wyników wyszukiwania Google, zabezpiecz hasłem pliki na swoim serwerze albo użyj tagu meta noindex lub nagłówka odpowiedzi bądź całkowicie usuń stronę.

Tworzenie i aktualizowanie pliku robots.txt

Dowiedz się, jak utworzyć plik robots.txt, jeśli uważasz, że go potrzebujesz. Jeśli go masz, dowiedz się, jak go zaktualizować.

Chcesz dowiedzieć się więcej? Zapoznaj się z tymi zasobami: