robots.txt로 URL 차단

robots.txt 파일에 관해 자세히 알아보기

robots.txt 파일이란 무엇인가요?

robots.txt 파일은 검색 엔진 크롤러에서 사이트에 요청할 수 있거나 요청할 수 없는 페이지 또는 파일을 크롤러에 지시하는 파일입니다. 이 파일은 요청으로 인해 사이트가 오버로드되지 않도록 하는 데 주로 사용되며, Google에서 웹페이지를 숨기는 데 사용하는 메커니즘이 아닙니다. 웹페이지가 Google에 표시되지 않도록 하려면 NOINDEX 태그 또는 명령어를 사용하거나 페이지를 비밀번호로 보호해야 합니다.

robots.txt의 용도는?

robots.txt는 주로 사이트의 크롤러 트래픽을 관리하는 데 사용되며 간혹 다음과 같이 파일 형식에 따라 Google에서 페이지를 숨기는 데 사용됩니다.

페이지 유형 트래픽 관리 Google에서 숨김 설명
웹페이지

HTML, PDF 또는 기타 Google에서 읽을 수 있는 미디어가 아닌 형식인 웹페이지의 경우 Google 크롤러의 요청으로 인해 서버에 가해지는 부담이 크다고 생각하거나, 사이트에서 중요하지 않은 페이지나 비슷한 페이지가 크롤링되지 않도록 하려는 경우 robots.txt를 사용하면 크롤링 트래픽을 관리할 수 있습니다.

robots.txt를 Google 검색결과에서 웹페이지를 숨기는 데 사용해서는 안 됩니다. 다른 페이지에서 설명문을 통해 내 페이지로 연결되면 페이지를 방문하지 않아도 내 페이지에서 색인이 생성될 수 있기 때문입니다. 검색결과에 페이지가 표시되지 않도록 하려면 비밀번호 보호나 NOINDEX 명령어 등 다른 방법을 사용하세요.

robots.txt 파일로 웹페이지를 차단하는 경우에도 검색 결과에 표시될 수 있지만 설명은 나타나지 않으며 이와 같이 표시됩니다. 이미지 파일, 동영상 파일, PDF 및 기타 HTML이 아닌 파일은 제외됩니다. 페이지에 관한 검색결과가 이와 같이 표시되는 문제를 해결하려는 경우 페이지를 차단하고 있는 robots.txt 항목을 제거하세요. 페이지를 검색에서 완전히 숨기려면 다른 방법을 사용해야 합니다.

미디어 파일

robots.txt를 사용하여 크롤링 트래픽을 관리하고 Google 검색결과에서 이미지, 동영상 및 오디오 파일이 표시되지 않도록 하세요. 이렇게 해도 다른 페이지에서 또는 다른 사용자가 내 이미지/동영상/오디오 파일로 연결할 수 없게 되지는 않습니다.

리소스 파일

robots.txt를 사용하여 중요하지 않은 이미지, 스크립트, 스타일 파일 등의 리소스 파일이 로드되지 않도록 할 수 있습니다. 이러한 리소스 없이 페이지가 로드되어도 크게 영향을 받지 않는다고 생각되면 차단해도 좋습니다. 하지만 이러한 리소스가 없이 Google의 크롤러가 페이지를 인지하기 어렵게 되는 경우에는 차단해서는 안 됩니다. 차단하면 Google에서 이러한 리소스에 의존하는 페이지를 제대로 분석할 수 없게 됩니다.

사이트 호스팅 서비스를 사용하는 경우

Wix, Drupal, Blogger 등의 웹사이트 호스팅 서비스를 사용하는 경우 robots.txt 파일을 직접 수정할 필요가 없거나 수정하지 못할 수 있습니다. 대신 호스팅 업체에서 검색 엔진이 페이지를 크롤링할지를 지시하는 페이지 설정이나 다른 메커니즘을 노출할 수 있습니다.

Google에서 페이지를 크롤링했는지 확인하려면 Google에서 페이지 URL을 검색하세요.

페이지를 숨기거나 숨기기를 해제하려면 페이지 로그인 요구사항을 추가하거나 제거하고, 사용하는 사이트 호스팅 서비스의 검색 엔진 페이지 공개 상태를 수정하는 방법에 관한 지침을 Google에서 검색하세요(예: 검색 엔진에서 Wix 페이지 숨기기).

robots.txt의 제한사항 이해

robots.txt를 작성하거나 수정하기 전에 이 URL 차단 방법의 제한사항에 관해 알아야 합니다. 경우에 따라 웹에서 내 URL이 검색되지 않도록 하는 다른 메커니즘을 고려해볼 수도 있습니다.

  • Robots.txt 명령은 지침에 지나지 않습니다.
    robots.txt 파일의 지침은 사이트에 대한 크롤러의 동작을 강요할 수 없으며, 사이트에 액세스하는 크롤러에 대한 지침 역할을 합니다. Googlebot 및 기타 잘 제작된 웹 크롤러는 robots.txt 파일의 지침을 준수하지만 그렇지 않은 크롤러도 있습니다. 그러므로 정보를 웹 크롤러로부터 안전하게 보호하려면 서버에서 비공개 파일을 비밀번호로 보호하는 등 다른 차단 메소드를 사용하는 것이 좋습니다.
  • 크롤러마다 구문을 다르게 해석합니다.
    잘 제작된 웹 크롤러는 robots.txt 파일의 지침을 따르지만 크롤러마다 지침을 다르게 해석할 수도 있습니다. 특정 지침을 이해하지 못하는 크롤러도 있으므로 다양한 웹 크롤러에 적용될 수 있는 적절한 구문을 알아야 합니다.
  • 다른 사이트에서 연결된 경우 robots.txt 파일을 사용한 페이지의 색인이 생성될 수도 있습니다.
    Google은 robots.txt를 통해 차단된 콘텐츠를 크롤링하거나 콘텐츠의 색인을 생성하지 않지만, 허용되지 않은 URL이 웹상의 다른 곳에 연결된 경우 관련 정보를 찾아 색인을 생성할 수는 있습니다. 결과적으로 URL 주소뿐 아니라 페이지 링크의 앵커 텍스트와 같은 기타 공개 정보가 Google 검색결과에 표시될 수 있습니다. URL이 Google 검색결과에 표시되지 않도록 하려면 서버의 파일을 비밀번호로 보호하거나 NOINDEX 메타태그 또는 응답 헤더를 사용하세요. 또는 페이지를 완전히 삭제할 수도 있습니다.
참고: 여러 크롤링 및 색인 생성 지침을 함께 사용할 경우 일부 지침이 다른 지침과 충돌할 수 있습니다. 지침을 제대로 구성하는 방법을 알아보려면 Google Developers 설명서의 크롤링과 색인 생성/게재 명령어 결합 섹션을 참조하세요.

페이지의 robots.txt 차단 여부 테스트

robots.txt 규칙에 의해 페이지 또는 리소스가 차단되었는지 테스트할 수 있습니다.

NOINDEX 명령을 테스트하려면 URL 검사 도구를 사용합니다.

이 도움말이 도움이 되었나요?
어떻게 하면 개선할 수 있을까요?