Informacje o pliku robots.txt

Najczęstsze pytania na temat robotów

Ogólne pytania na temat robotów

Pytania na temat pliku robots.txt

Pytania na temat metatagu robots

Pytania na temat nagłówka HTTP X-Robots-Tag

Czy przegapiliśmy odpowiedź na jakieś pytanie? Jeśli potrzebujesz dodatkowej pomocy, zadaj pytania na naszym Forum pomocy dla webmasterów.

Ogólne pytania na temat robotów

Czy moja witryna potrzebuje pliku robots.txt?

Nie. Gdy Googlebot odwiedza witrynę, najpierw próbuje odczytać plik robots.txt, by sprawdzić, czy ma pozwolenie na pobieranie. Witryna bez pliku robots.txt, metatagów robots oraz nagłówków HTTP X-Robots-Tag jest zazwyczaj pobierana i indeksowana w typowy sposób.

Którą metodę mam wybrać?

To zależy. Krótko mówiąc, każda z tych metod ma swoje zastosowanie:

  1. Plik robots.txt – użyj go, jeśli pobieranie treści powoduje problemy na serwerze. Możesz na przykład zabronić pobierania skryptów nieograniczonego kalendarza. Nie używaj pliku robots.txt do blokowania treści prywatnych (zamiast tego zastosuj uwierzytelnianie po stronie serwera) ani określania elementów kanonicznych (przeczytaj artykuł w naszym Centrum pomocy). Jeśli chcesz mieć pewność, że adres URL nie będzie indeksowany, użyj metatagu robots lub nagłówka HTTP X-Robots-Tag.
  2. Metatag robots – użyj go, jeśli chcesz kontrolować, jak poszczególne strony HTML wyświetlają się w wynikach wyszukiwania (lub by mieć pewność, że nie będą się one tam pojawiać).
  3. Nagłówek HTTP X-Robots-Tag – użyj go, jeśli chcesz kontrolować, jak treści inne niż HTML wyświetlają się w wynikach wyszukiwania (lub by mieć pewność, że nie będą się one tam pojawiać).

Czy mogę użyć tych metod, by usunąć witrynę kogoś innego?

Nie. Te metody działają tylko w witrynach, w których możesz zmieniać kod lub dodawać pliki. Jeśli chcesz usunąć treści z witryny zewnętrznej, musisz o to poprosić jej webmastera.

Jak spowolnić pobieranie mojej witryny przez Google?

Ustawienie szybkości indeksowania możesz dostosować na koncie Google Search Console.

Pytania na temat pliku robots.txt

Używam tego samego pliku robots.txt w wielu witrynach. Czy mogę podać pełny adres URL zamiast ścieżki względnej?

Nie. Dyrektywy w pliku robots.txt (z wyjątkiem „Sitemap:”) działają tylko ze ścieżkami względnymi.

Czy mogę umieścić plik robots.txt w podkatalogu?

Nie. Plik musi być w katalogu głównym witryny.

Chcę zablokować folder prywatny. Czy mogę uniemożliwić innym osobom odczyt mojego pliku robots.txt?

Nie. Plik robots.txt może odczytać dowolny użytkownik. Jeśli nazwy folderów lub plików z treścią nie powinny być publiczne, nie wymieniaj ich w pliku robots.txt. Odradzamy udostępnianie różnych plików robots.txt w zależności od klienta użytkownika lub innych atrybutów.

Czy muszę dodać dyrektywę allow, by zezwolić na indeksowanie?

Nie. Nie musisz dodawać dyrektywy allow. Dyrektywa allow służy do zastępowania dyrektyw disallow w tym samym pliku robots.txt.

Co się dzieje, gdy plik robots.txt zawiera błąd lub nieobsługiwaną dyrektywę?

Roboty internetowe są zwykle bardzo elastyczne i drobne błędy w pliku robots.txt ich nie dezorientują. Najgorsze, co może się zdarzyć, to zignorowanie nieprawidłowych lub nieobsługiwanych dyrektyw. Pamiętaj jednak, że Google nie jest w stanie odgadnąć intencji twórcy pliku robots.txt. Może jedynie interpretować odczytane dyrektywy. Jeśli tylko wiesz o problemach w pliku robots.txt, zazwyczaj łatwo je rozwiązać.

Jakiego programu użyć do utworzenia pliku robots.txt?

Możesz użyć dowolnego programu, który zapisuje prawidłowy plik tekstowy. Typowe programy używane do tworzenia plików robots.txt to Notatnik, TextEdit, vi oraz emacs. Więcej informacji o tworzeniu plików robots.txt. Po utworzeniu pliku sprawdź go za pomocą testera pliku robots.txt.

Czy jeśli dyrektywą disallow w pliku robots.txt zabronię Google indeksowania strony, to zniknie ona z wyników wyszukiwania?

Uniemożliwienie Google zindeksowania strony zwykle powoduje usunięcie jej z indeksu Google. 

Dyrektywa disallow w pliku robots.txt nie gwarantuje jednak, że strona nie będzie pojawiać się w wynikach wyszukiwania – na podstawie informacji zewnętrznych (takich jak linki przychodzące) Google wciąż może uważać ją za istotną. Jeśli chcesz wyraźnie zablokować indeksowanie strony, użyj wartości noindex w metatagu robots lub nagłówka HTTP X-Robots-Tag. W takiej sytuacji nie zabraniaj dostępu do strony w pliku robots.txt, bo robot musi pobrać stronę, by odczytać tag i zgodnie z nim postąpić.

Po jakim czasie zmiany w pliku robots.txt wpływają na wyniki wyszukiwania?

Przede wszystkim musimy odświeżyć plik robots.txt w pamięci podręcznej (treści w pamięci podręcznej zwykle zapisujemy najwyżej na jeden dzień). Pobieranie i indeksowanie to złożony proces, który w przypadku poszczególnych adresów URL może zająć dłuższy czas, dlatego nawet po wykryciu zmiany nie wiemy dokładnie, ile wszystko potrwa. Pamiętaj też, że nawet gdy plik robots.txt zabrania dostępu do adresu URL i nie możemy pobierać danej strony, wciąż może ona pojawiać się w wynikach wyszukiwania. Jeśli chcesz przyspieszyć usuwanie zablokowanych stron z Google, prześlij prośbę o usunięcie za pomocą Search Console.

Jak tymczasowo zawiesić całe indeksowanie mojej witryny?

Jeśli chcesz tymczasowo zawiesić całe pobieranie, ustaw zwracanie kodu wyniku HTTP 503 w odpowiedzi na wszystkie adresy URL, włącznie z plikiem robots.txt. Co jakiś czas będziemy ponownie próbować odczytać plik robots.txt, aż znowu stanie się on dostępny. Odradzamy blokowanie całego pobierania w pliku robots.txt.

Mój serwer nie rozróżnia wielkości liter. Jak całkowicie zabronić indeksowania niektórych folderów?

Wielkość liter w dyrektywach w pliku robots.txt jest rozróżniana. W takiej sytuacji najlepiej użyć metod konwertowania kanonicznego, by mieć pewność, że tylko jedna wersja adresu URL jest indeksowana. Takie rozwiązanie pozwala uprościć plik robots.txt. Jeśli nie możesz tego zrobić, wymień typowe kombinacje nazwy folderu lub jak najbardziej ją skróć, używając tylko kilku pierwszych znaków zamiast całości. Na przykład zamiast podawać wszystkie wersje nazwy „/MojFolderPrywatny” z wielkimi i małymi literami, wymień tylko wersje nazwy „/MojF” (jeśli masz pewność, że nie ma innych adresów URL z takim początkiem dostępnych do pobierania). Zamiast tego możesz też użyć metatagu robots lub nagłówka HTTP X-Robots-Tag, jeśli nie przeszkadza Ci pobieranie.

Mój serwer zwraca kod 403 „Forbidden” (Zabronione) w odpowiedzi na wszystkie adresy URL, w tym plik robots.txt. Dlaczego witryna wciąż jest indeksowana?

Kod wyniku HTTP 403 (tak jak wszystkie pozostałe kody 4xx) jest interpretowany jako informacja, że plik robots.txt nie istnieje. Z tego powodu roboty zwykle przyjmują, że mogą pobrać wszystkie adresy URL witryny. Aby zablokować pobieranie witryny, plik robots.txt musi być udostępniany w typowy sposób (z kodem wyniku HTTP 200 „OK”) i zawierać odpowiednią dyrektywę „disallow”.

Pytania na temat metatagu robots

Czy metatag robots zastępuje plik robots.txt?

Nie. Plik robots.txt określa dostęp do stron. Metatag robots określa, czy strona będzie indeksowana. Aby go jednak odczytać, stronę trzeba pobrać. Jeśli pobieranie strony utrudnia sprawę (np. wtedy, gdy bardzo obciąża ona serwer), użyj pliku robots.txt. Jeśli znaczenie ma tylko to, czy strona pojawia się w wynikach wyszukiwania, możesz użyć metatagu robots.

Czy metatag robots może blokować część strony przed indeksowaniem?

Nie. Metatag robots to ustawienie na poziomie strony.

Czy metatagu robots można używać poza sekcją <head>?

Nie. Metatag robots musi obecnie znajdować się w sekcji <head> strony.

Czy metatag robots blokuje indeksowanie?

Nie. Nawet gdy metatag robots zawiera wartość noindex, musimy co jakiś czas ponownie pobrać dany URL, by sprawdzić, czy metatag się nie zmienił.

Czym wartość nofollow metatagu robots różni się od atrybutu linku rel="nofollow"?

Wartość nofollow metatagu robots odnosi się do wszystkich linków na stronie. Atrybut linku rel="nofollow" odnosi się tylko do konkretnych linków na stronie. Więcej informacji o atrybucie linku rel="nofollow" znajdziesz w artykułach o spamie tworzonym przez użytkownikówstosowaniu atrybutu rel="nofollow" dostępnych w naszym Centrum pomocy.

Pytania na temat nagłówka HTTP X-Robots-Tag

Jak sprawdzić nagłówek X-Robots-Tag adresu URL?

Prosty sposób, by zobaczyć nagłówki serwera, to użyć internetowego narzędzia do ich sprawdzania lub funkcji „Pobierz jako Googlebot” w Google Search Console.

Czy to było pomocne?
Jak możemy ją poprawić?