robots.txt 소개

robots 관련 FAQ

일반적인 robots 관련 질문

robots.txt 관련 질문

로봇 메타태그 관련 질문

X-Robots-Tag HTTP 헤더 관련 질문

누락된 FAQ가 있나요? 도움이 필요하면 언제든지 Google의 웹마스터 도움말 포럼에 게시해 주시기 바랍니다.

일반 robots 관련 질문

내 웹사이트에 robots.txt 파일이 필요한가요?

아니요. Googlebot에서 웹사이트를 방문하면 먼저 robots.txt 파일을 검색하여 크롤링하기 위한 권한을 요청합니다. robots.txt 파일이 없는 웹사이트의 경우 일반적으로 로봇 메타태그 또는 X-Robots-Tag HTTP 헤더가 크롤링되고 색인 생성됩니다.

어떤 메소드를 사용해야 하나요?

경우에 따라 다릅니다. 간단히 설명하면 다음과 같이 각 메소드를 사용해야 하는 이유가 있습니다.

  1. robots.txt: 콘텐츠 크롤링이 서버에 문제를 일으키는 경우 사용합니다. 예를 들어 무한 캘린더 스크립트를 크롤링하지 못 하게 할 수 있습니다. 비공개 콘텐츠를 차단하거나(서버 측 인증을 대신 사용) 정규화를 처리하는 데 robots.txt를 사용해서는 안 됩니다(도움말 센터 참조). URL 색인이 생성되지 않은 것이 확실한 경우, 대신 로봇 메타태그나 X-Robots-Tag HTTP 헤더를 사용합니다.
  2. 로봇 메타태그: 개별 HTML 페이지가 검색결과에 표시되는 방식을 제어하거나 표시되지 않아야 하는 경우 사용합니다.
  3. X-Robots-Tag HTTP 헤더: HTML이 아닌 콘텐츠가 검색결과에 표시되는 방식을 제어하거나 표시되지 않아야 하는 경우 사용합니다.

이 메소드를 사용해서 다른 사용자의 사이트를 삭제할 수 있나요?

아니요. 이 메소드들은 코드를 수정하거나 파일을 추가할 수 있는 사이트에서만 유효합니다. 타사 사이트의 콘텐츠를 삭제하려면 웹마스터에게 연락하여 콘텐츠를 삭제하도록 요청해야 합니다.

Google에서 내 웹사이트를 크롤링하는 속도를 줄이려면 어떻게 해야 하나요?

보통 Google Search Console 계정에서 크롤링 속도 설정을 조정할 수 있습니다.

robots.txt 관련 질문

여러 웹사이트에서 같은 robots.txt를 사용합니다. 상대 경로 대신 전체 URL을 사용할 수 있나요?

아니요. robots.txt 파일의 명령어('Sitemap:' 제외)는 상대 경로에만 사용할 수 있습니다.

robots.txt 파일을 하위 디렉토리에 넣을 수 있나요?

아니요. robots.txt 파일은 웹사이트의 최상위 디렉토리에 넣어야 합니다.

비공개 폴더를 차단하고 싶습니다. 다른 사용자가 내 robots.txt 파일을 읽지 못 하게 할 수 있나요?

아니요. robots.txt 파일은 다양한 사용자가 읽을 수 있습니다. 콘텐츠의 폴더나 파일 이름을 공개하지 않아야 하는 경우 robots.txt 파일에 나열하지 않아야 합니다. user-agent 또는 다른 속성을 기반으로 하여 다른 robots.txt 파일을 사용하는 것은 좋지 않습니다.

크롤링을 허용하려면 allow 명령어를 포함해야 하나요?

아니요, allow 명령어를 포함할 필요는 없습니다. allow 명령어는 같은 robots.txt 파일에서 disallow 명령어를 재정의하는 데 사용됩니다.

robots.txt 파일 내용을 잘못 입력하거나 지원되지 않는 명령어를 사용하면 어떻게 되나요?

일반적으로 웹 크롤러는 매우 유연하여 robots.txt 파일의 작은 실수에 영향을 받지 않습니다. 일반적으로 발생할 수 있는 가장 나쁜 경우는 잘못되거나 지원되지 않는 명령어가 무시되는 것입니다. 하지만 Google은 robots.txt 파일을 해석할 때 사용자의 의도까지 읽을 수는 없으며 검색된 robots.txt 파일을 해석해야 합니다. 다시 말해 사용자가 robots.txt 파일에 문제가 있음을 인식하면 일반적으로 쉽게 수정할 수 있습니다.

robots.txt 파일을 만들려면 어떤 프로그램을 사용해야 하나요?

유효한 텍스트 파일을 만드는 프로그램이면 어떤 것도 사용할 수 있습니다. robots.txt 파일을 만드는 데 사용되는 일반적인 프로그램에는 메모장, 텍스트 편집기, vi 또는 emacs가 있습니다. Google Search Console에는 웹사이트를 위한 robots.txt 파일을 만드는 데 도움이 되는 도구가 포함되어 있습니다. robots.txt 파일을 웹사이트에 배치한 후에는 Google 웹마스터 도구Fetch As Googlebot 기능을 사용하여 유효성을 확인할 수 있습니다. Search Console은 robots.txt 파일을 생성하는 데도 도움이 됩니다.

robots.txt disallow 명령어를 사용하여 Google이 페이지를 크롤링하지 못하도록 차단하면 검색결과에서 페이지가 사라지나요?

Google이 페이지를 크롤링하지 못하도록 차단하면 페이지의 순위가 낮아지거나 시간이 지남에 따라 검색결과에서 제외될 수 있습니다. 또한 검색결과 아래에 텍스트로 사용자에게 제공되는 세부정보의 양도 줄어들 수 있습니다. 페이지의 콘텐츠가 없으면 검색엔진이 처리할 정보의 양이 훨씬 적기 때문입니다.

하지만 robots.txt Disallow를 사용한다고 해서 페이지가 검색결과에 표시되지 않는다고 보장할 수는 없습니다. Google에서는 수신 링크 등의 외부 정보를 토대로 관련성을 계속 판단할 수 있습니다. 페이지의 색인이 생성되지 않도록 명시적으로 차단하려면 대신 noindex 로봇 메타태그나 X-Robots-Tag HTTP 헤더를 사용해야 합니다. 이 경우 페이지의 태그를 보고 적용하려면 크롤링되어야 하므로 robots.txt에서 해당 페이지를 금지하면 안 됩니다.

robots.txt 파일의 변경사항이 검색결과에 영향을 미치는 데 얼마나 오래 걸리나요?

먼저 robots.txt 파일의 캐시를 새로 고쳐야 합니다. Google은 일반적으로 최대 하루 분량의 콘텐츠를 캐시합니다. 변경사항을 발견한 후에도 크롤링 및 색인 생성은 복잡한 과정이어서 때로는 개별 URL을 처리하는 데 시간이 걸릴 수도 있으므로 정확한 일정을 보여줄 수 없습니다. 또한 robots.txt 파일이 URL에 액세스하지 못 하게 하여 Google에서 크롤링할 수 없는 경우에도 해당 URL이 검색결과에 계속 표시될 수 있습니다. Google에서 차단한 페이지를 빨리 삭제하려면 Google Search Console을 통해 삭제 요청을 제출하시기 바랍니다.

robots.txt 파일에 AJAX-크롤링 URL을 지정하려면 어떻게 해야 하나요?

AJAX-크롤링 제안을 사용하는 URL을 지정할 때 크롤링된 URL을 사용해야 합니다.

웹사이트에서 모든 크롤링을 일시중지하려면 어떻게 해야 하나요?

robots.txt 파일을 비롯하여 모든 URL에 대해 HTTP 결과 코드 503을 반환하여 모든 크롤링을 일시중지할 수 있습니다. robots.txt 파일은 다시 액세스될 때까지 주기적으로 재시도됩니다. 크롤링을 금지하기 위해 robots.txt 파일을 변경하는 것은 좋지 않습니다.

내 서버는 대소문자를 구분하지 않습니다. 일부 폴더에 대해 크롤링을 완전히 금지하려면 어떻게 해야 하나요?

robots.txt 파일의 명령어는 대소문자를 구분합니다. 이 경우 정규화 메소드를 사용하여 하나의 URL 버전만 색인 생성되도록 하는 것이 좋습니다. 이렇게 하면 robots.txt 파일을 단순화할 수 있습니다. 이렇게 해도 해결되지 않는 경우 폴더 이름의 일반 조합을 등록하거나 전체 이름 대신 첫 글자 몇 개만을 사용하여 가능한 한 축약하는 것이 좋습니다. 예를 들어 '/MyPrivateFolder'의 모든 대문자와 소문자 순열을 표시하는 대신 '/MyP'의 순열을 표시할 수 있습니다. 이 경우 이러한 첫 글자들에 다른 크롤링 가능한 URL이 없는지 확인해야 합니다. 또는 크롤링에 문제가 없다면 로봇 메타태그나 X-Robots-Tag HTTP 헤더를 대신 사용할 수도 있습니다.

robots.txt 파일을 비롯한 모든 URL에서 403 '금지됨'이 반환됩니다. 사이트가 계속 크롤링되는 이유는 무엇인가요?

HTTP 결과 코드 403은 다른 모든 4xx HTTP 결과 코드와 마찬가지로 robots.txt 파일이 없음을 나타내는 기호로 표시됩니다. 그렇기 때문에 크롤러는 일반적으로 웹사이트의 모든 URL을 크롤링할 수 있다고 가정합니다. 웹사이트 크롤링을 차단하려면 robots.txt가 적절한 'disallow'를 포함하여 정상적으로 200 'OK' HTTP 결과 코드와 함께 반환되어야 합니다.

로봇 메타태그 관련 질문

로봇 메타태그는 robots.txt 파일의 대체물인가요?

아니요. robots.txt 파일은 액세스되는 페이지를 제어합니다. 로봇 메타태그는 페이지의 색인 생성 여부를 제어하지만 이 태그를 보려면 페이지가 크롤링되어야 합니다. 페이지 크롤링에 문제가 있는 경우(예를 들어 페이지가 서버의 로드를 증가시키는 경우) robots.txt 파일을 사용해야 합니다. 페이지가 검색결과에 표시되는지 여부만 문제인 경우 로봇 메타태그를 사용할 수 있습니다.

로봇 메타태그를 사용하여 페이지의 일부가 색인 생성되지 못하도록 차단할 수 있나요?

아니요. 로봇 메타태그는 페이지 수준 설정입니다.

<head> 섹션 외부에서 로봇 메타태그를 사용할 수 있나요?

아니요, 현재 로봇 메타태그는 페이지의 <head> 섹션에 있어야 합니다.

로봇 메타태그는 크롤링을 허용하지 않나요?

아니요. 로봇 메타태그가 현재 noindex로 지정된 경우에도 Google은 가끔 해당 URL을 다시 크롤링하여 메타태그가 변경되었는지 확인합니다.

nofollow 로봇 메타태그는 rel="nofollow" 링크 속성과 어떻게 다른가요?

nofollow 로봇 메타태그는 페이지의 모든 링크에 적용됩니다. rel="nofollow" 링크 속성은 페이지의 특정 링크에만 적용됩니다. rel="nofollow" 링크 속성에 관해 자세히 알아보려면 도움말 센터에서 사용자 생성 스팸rel="nofollow"를 참조하시기 바랍니다.

X-Robots-Tag HTTP 헤더 관련 질문

URL의 X-Robots-Tag를 확인하려면 어떻게 해야 하나요?

서버 헤더를 보는 간단한 방법은 웹 기반 서버 헤더 검사기 또는 Google Search Console의 'Fetch as Googlebot' 기능을 사용하는 것입니다.

이 도움말이 도움이 되었나요?
어떻게 하면 개선할 수 있을까요?