크롤링 통계 보고서

크롤링 통계 보고서에는 Google의 웹사이트 크롤링 기록에 대한 통계가 표시됩니다. 예를 들어 언제 얼마나 많은 요청이 이루어졌는지, 서버에서 어떻게 응답했는지, 가용성 문제가 발생했는지 등이 표시될 수 있습니다. 이 보고서를 사용하여 Google이 사이트를 크롤링할 때 게재 문제가 발생했는지 확인할 수 있습니다.

이 보고서는 고급 사용자를 대상으로 합니다. 사이트에 페이지 수가 1,000개 미만인 경우 이 보고서를 사용하지 않거나 이 정도 수준의 크롤링 세부정보는 신경 쓰지 않아도 됩니다.

이 보고서는 루트 수준 속성에서만 사용할 수 있습니다. 즉, 속성이 도메인 속성(예: example.com 또는 m.example.com)이거나 루트 수준에서 URL 접두어 속성(https://example.com, http://example.com, http://m.example.com)이어야 합니다.

크롤링 통계 보고서 열기

Crawl Budget and the Crawl Stats report - Google Search Console Training

설정 (속성 설정) > 크롤링 통계를 클릭하여 Search Console에서 크롤링 통계 보고서로 이동할 수 있습니다.

시작하기

이 보고서를 사용하기 전에 다음 정보를 이해해야 합니다.

데이터 정보

  • 표시되고 계산되는 모든 URL은 Google에서 요청한 실제 URL이며, 데이터는 일부 다른 보고서에서처럼 표준 URL에 할당되지 않습니다.
  • URL에 리디렉션이 있는 경우 리디렉션 체인의 각 요청은 별도의 요청으로 계산됩니다. 따라서 page1이 page2로 리디렉션되고 page3으로 리디렉션되는 경우, Google이 page1을 요청하면 page1에 대한 별도 요청(301/302 반환), page2에 대한 별도 요청(301/302 반환), page3에 대한 별도 요청(200 반환 가능)이 표시됩니다. 현재 도메인의 페이지만 표시됩니다.
  • robots.txt를 사용할 수 없어서 고려되기는 했지만 실행되지 않은 크롤링은 크롤링 총계에는 포함되지만 크롤링 세부정보 섹션에는 포함되지 않습니다. 추가 정보
  • 리소스 및 범위:
    • 모든 데이터는 현재 선택한 도메인으로 제한됩니다. 다른 도메인에 대한 요청은 표시되지 않습니다. 여기에는 이 속성 외부에서 호스팅되는 모든 페이지 리소스(예: 이미지)에 대한 요청이 포함됩니다. 따라서 페이지 example.com/mypage에 이미지 google.com/img.png가 포함된 경우, google.com/img.png에 대한 요청은 example.com 속성에 대한 크롤링 통계 보고서에 표시되지 않습니다.
    • 마찬가지로 동위 도메인(en.example 및 de.example)에 대한 요청은 표시되지 않습니다. 따라서 en.example에 대한 크롤링 통계 보고서를 보면 de.example의 이미지에 대한 요청은 표시되지 않습니다.
    • 하지만 하위 도메인 간의 요청은 상위 도메인에 표시될 수 있습니다. 예를 들어 example.com의 데이터를 확인할 때 example.com, en.example, de.example.com 및 example.com보다 하위 수준의 다른 모든 하위 도메인에 대한 모든 요청이 표시될 수 있습니다.
    • 반대로 다른 도메인의 페이지에서 내 속성의 리소스를 사용하는 경우 호스트 페이지와 연결된 크롤링 요청이 표시될 수 있지만 다른 도메인의 페이지가 사용하고 있으므로 리소스가 크롤링되고 있다는 것을 나타내는 문맥은 표시되지 않을 수 있습니다(즉, 이미지 example.com/imageX.png는 페이지 anotherexample.com/mypage에 포함되어 있으므로 이미지가 크롤링되고 있다는 것이 표시되지 않음).
    • URL 접두어 속성과 관계없이 크롤링 데이터에는 http 및 https 프로토콜이 모두 포함됩니다. 즉, http://example.com의 크롤링 통계 보고서에는 http://example.com 및 https://example.com에 대한 요청이 모두 포함됩니다. 그러나 URL 접두어 속성의 URL 예는 속성에 정의된 프로토콜(http 또는 https)로 제한됩니다.
알려진 문제: 현재 크롤링 통계 보고서에는 대부분의 크롤링 요청이 보고되지만, 일부 요청은 다양한 이유로 집계되지 않을 수 있습니다. 모든 요청을 포함하지 못하더라도 점차 대부분의 요청을 포함할 수 있도록 노력하고 있습니다. 따라서 여기에 보고되는 사이트의 요청 로그와 횟수는 약간 다를 수 있습니다.

보고서 탐색하기

표 항목을 클릭하면 예시 URL 목록 등 해당 항목의 상세 보기를 확인하고, URL을 클릭하면 특정 크롤링 요청의 세부사항을 확인할 수 있습니다. 예를 들어 유형별로 그룹화된 응답을 표시하는 표에서 HTML 행을 클릭하여 사이트에서 크롤링된 모든 HTML 페이지의 크롤링 집계 정보를 확인하고 크롤링 시간, 응답 코드, 응답 크기 등의 세부정보 및 해당 URL의 예시 선택을 확인할 수 있습니다.

호스트 및 하위 도메인

속성이 도메인 수준(example.com, http://example.com, https://m.example.com)에 있고 두 개 이상의 하위 도메인(fr.example.com 및 de.example.com)을 포함하는 경우 모든 하위 도메인을 포함하는 상위 도메인의 데이터 또는 단일 하위 도메인을 범위로 하는 데이터를 확인할 수 있습니다.

특정 하위 범위 도메인을 범위로 하는 보고서를 보려면 상위 도메인의 방문 페이지에서 호스트 목록에 있는 하위 항목을 클릭합니다. 지난 90일 동안 트래픽이 발생한 상위 20개의 하위 도메인만 표시됩니다.

예시 URL

그룹화된 데이터 유형 항목(응답, 파일 형식, 목적, Googlebot 유형)을 클릭하여 해당 유형의 예시 URL 목록을 확인할 수 있습니다.

예시 URL은 포괄적이지는 않지만 대표적인 예입니다. 목록에 URL이 표시되지 않았다고 해서 해당 URL을 요청하지 않은 것은 아닙니다. 예시의 수는 날짜별로 가중치가 부여될 수 있으므로 일부 유형의 요청은 다른 유형보다 예시가 더 많을 수도 있습니다. 이는 시간이 지나면 균형이 잡힙니다.

총 크롤링 요청 횟수

성공 여부와 관계없이 사이트의 URL에서 발생한 총 크롤링 요청 횟수입니다. 이러한 리소스가 사이트에 있는 경우 페이지에서 사용하는 리소스에 대한 요청이 포함됩니다. 사이트 외부에서 호스팅된 리소스에 대한 요청은 계산되지 않습니다. 동일한 URL에 관한 중복 요청은 개별적으로 계산됩니다. robots.txt 파일을 충분히 사용할 수 없다면 잠재적인 가져오기가 계산됩니다.

계산되는 실패한 요청은 다음과 같습니다.

총 다운로드 크기

특정 기간에 크롤링하는 동안 사이트에서 다운로드한 총 바이트 수입니다. Google이 여러 페이지에서 사용하는 페이지 리소스를 캐시한 경우, 리소스는 처음에만 (캐시될 때) 요청됩니다.

평균 응답 시간

특정 기간 동안 사이트에서 가져온 모든 리소스에 대한 평균 응답 시간입니다. 페이지로 연결된 각 리소스는 별도의 응답으로 계산됩니다.

호스트 상태

호스트 상태는 Google에서 사이트를 크롤링하려고 할 때 가용성 문제가 발생했는지 설명합니다. 상태는 다음 값 중 하나일 수 있습니다.

  • No significant availability issues icon
    지난 90일 동안 사이트에 중대한 크롤링 가용성 문제가 발생하지 않았습니다. 별도로 조치를 취하지 않아도 됩니다.
  • Some availability issues, but not recently
    지난 90일 동안 사이트에서 중대한 크롤링 가용성 문제가 하나 이상 발생했으나 1주 이상 전에 발생했습니다. 일시적인 오류이거나 문제가 해결되었을 수 있습니다. 응답 표를 검토하여 문제를 파악하고 조치를 취해야 하는지 결정해야 합니다.
  • Recent availability issue
    지난주에 사이트에서 중대한 크롤링 가용성 문제가 하나 이상 발생했습니다. 오류가 최근에 발생했기 때문에 반복되는 문제인지 확인해야 합니다. 응답 표를 검토하여 문제를 파악하고 조치를 취해야 하는지 결정합니다.
확인할 사항

이상적으로 호스트 상태는 초록색이어야 합니다. 가용성 상태가 빨간색이면 클릭하여 robots.txt 가용성, DNS 변환 및 호스트 연결에 대한 가용성 세부정보를 확인합니다.

호스트 상태 세부정보

호스트 가용성 상태는 다음 카테고리로 평가됩니다. 카테고리에 중대한 오류가 발생하면 가용성 상태가 낮아질 수 있습니다. 보고서에서 카테고리를 클릭하여 자세한 내용을 확인할 수 있습니다.

각 카테고리에서 특정 기간 동안의 크롤링 데이터 차트가 표시됩니다. 차트에 빨간색 점선이 있고, 측정항목이 이 카테고리의 점선 위에 있는 경우(예: 어떤 날에 DNS 변환이 5% 이상의 요청에 대해 실패한 경우) 해당 카테고리의 문제로 간주되고 상태에 마지막 문제의 최근 발생일이 반영됩니다.

  • robots.txt 가져오기
    그래프에 크롤링 도중 robots.txt 요청의 실패율이 표시됩니다. Google은 이 파일을 자주 요청하므로 요청이 유효한 파일(채워진 파일 또는 빈 파일)이나 404(파일이 존재하지 않음) 응답을 반환하지 않으면 Google에서 만족스러운 robots.txt 응답을 받을 수 있을 때까지 사이트 크롤링의 속도를 늦추거나 중단합니다. (아래에서 자세한 내용 확인)
  • DNS 변환
    DNS 서버가 호스트 이름을 인식하지 못하거나 크롤링 중 응답하지 않으면 그래프에 표시됩니다. 오류가 표시되면 등록기관을 통해 사이트가 올바르게 설정되었는지 확인하고 서버가 인터넷에 연결되어 있는지 확인합니다.
  • 서버 연결
    서버가 응답하지 않거나 크롤링 중에 URL에 대한 전체 응답이 전송되지 않으면 그래프에 표시됩니다. 이러한 오류를 해결하는 방법을 알아보려면 서버 오류를 참고하세요.
robots.txt 가용성 세부정보 더보기

Google에서 사이트를 크롤링할 때 robots.txt 파일을 확인하고 사용하는 방법에 대한 자세한 설명은 다음과 같습니다.

사이트에 반드시 robots.txt 파일이 없어도 되지만 이 파일이 요청되었을 때 성공적인 응답을 반환해야 하며(아래에 정의된 대로), 그러지 않으면 Google에서 사이트의 크롤링을 중단합니다.

  • robots.txt 응답 성공
  • 다음과 같은 경우 성공적인 응답이 반환된 것으로 간주됩니다.
    • HTTP 200 및 robots.txt 파일(유효한 파일이거나 유효하지 않거나 비어 있을 수 있음). 파일에 구문 오류가 있더라도 요청이 성공한 것으로 간주되지만 Google에서 구문 오류가 있는 규칙은 무시할 수 있습니다.
    • HTTP 403/404/410(파일이 존재하지 않음) 사이트에 robots.txt 파일이 없어도 됩니다.
  • robots.txt 응답 실패

Google에서는 사이트를 크롤링할 때 다음과 같은 방식으로 robots.txt 파일을 요청하고 사용합니다.

  1. Google은 사이트를 크롤링하기 전에 최근에(24시간 미만) 성공한 robots.txt 파일 요청이 있는지 먼저 확인합니다.
  2. Google에 최근 성공한 robots.txt 응답이 있는 경우 가져온 robots.txt 규칙을 준수하여 크롤링이 시작됩니다.
  3. 최근에 성공한 robots.txt 응답이 없거나 마지막 응답이 실패했다면 Google이 robots.txt 파일을 요청합니다.
    • 성공하면 크롤링이 시작될 수 있습니다.
    • 실패하면 Google이 크롤링을 중지할 수 있지만 약 30일 동안 계속해서 robots.txt 파일을 요청합니다. 30일 후에도 Google이 robots.txt 응답을 받지 못하는 경우:
      • 사이트의 다른 URL 대부분에 액세스할 수 있는 경우 Google은 마지막으로 가져온 robots.txt 규칙에 따라 크롤링합니다.
      • 일반적으로 사이트에 액세스할 수 없는 경우 Google에서 사이트 크롤링을 천천히 중지합니다.
robots.txt 파일을 사용할 수 없어서 취소된 모든 크롤링은 크롤링 총계에 포함됩니다. 그러나 이러한 크롤링은 실제로 실행되지 않았으므로 그룹화 보고서(목적별 크롤링, 응답별 크롤링 등)에 이에 관한 데이터가 표시되지 않습니다.

크롤링 응답수

이 표에서는 사이트를 크롤링할 때 Google 이 받은 응답을 응답 유형별로 그룹화하여 전체 크롤링 응답에서 차지하는 비율로 표시합니다. 데이터는 URL이 아닌 총 요청 수를 기반으로 하므로 Google에서 URL을 두 번 요청한 후 처음에 서버 오류(500)를 받고 두 번째에 OK(200)를 받은 경우 응답은 50% 서버 오류와 50% OK가 됩니다.

확인할 사항
사이트 구조 변경이나 사이트 이동을 하지 않는 한 대부분의 응답은 200 또는 기타 '양호' 유형의 응답이어야 합니다. 다른 응답 코드를 처리하는 방법은 아래 목록을 참조하세요.

 

다음은 일반적인 응답 코드와 처리 방법입니다.

양호한 응답 코드

이러한 페이지는 정상이며 문제를 일으키지 않습니다.

  • OK(200): 일반적인 상황에서는 대부분의 응답이 200 응답입니다.
  • 영구 이전(301): 페이지에서 HTTP 301(영구 이전) 응답을 반환하며, 이는 사용자가 원하는 응답일 가능성이 높습니다.
  • 임시 이전(302): 페이지에서 HTTP 302(임시 이전) 응답을 반환하며, 이는 사용자가 원하는 응답일 가능성이 높습니다. 이 페이지가 영구적으로 이동된 경우 301로 변경합니다.
  • 이전(기타): 다른 300 리디렉션 응답입니다(301 또는 302 아님).
  • 수정되지 않음(304): 마지막 크롤링 요청 이후 페이지가 변경되지 않았습니다.

양호할 수 있는 응답 코드

이러한 응답은 양호할 수 있지만 원하는 응답인지 확인해 보는 것이 좋습니다.

  • robots.txt에 의해 차단됨: 보통 원하는 대로 작동합니다. 하지만 Google에서 크롤링하려는 페이지 또는 리소스를 차단하지 않도록 해야 합니다. robots.txt 파일 자세히 알아보기
  • 찾을 수 없음(404) 오류의 원인이 사이트 내부의 깨진 링크이거나 사이트 외부에 있을 수 있습니다. 사이트의 모든 404 오류를 수정하는 것은 불가능하거나 그럴 가치가 없거나 권장되지 않을 수 있으며 404가 올바른 응답인 경우도 많습니다(예: 페이지가 대체 페이지 없이 실제로 사라진 경우). 404 오류 해결 방법 또는 해결 여부 알아보기

잘못된 응답 코드

크롤링을 개선하려면 이러한 오류를 반환하는 페이지를 수정해야 합니다.

  • robots.txt를 사용할 수 없음: robots.txt 파일을 하루 동안 사용할 수 없는 경우 Google에서 만족스러운 robots.txt 요청에 대한 응답을 받을 수 있을 때까지 한동안 크롤링을 중단합니다. 이는 허용되는 robots.txt 파일 찾을 수 없음(404)과는 다릅니다. robots.txt 세부정보 더보기
  • 승인되지 않음(401/407): robots.txt로 이 페이지의 크롤링을 차단하거나 이러한 페이지를 차단 해제해야 하는지 결정해야 합니다. 이러한 페이지에 안전한 데이터가 없고 이를 크롤링하려면 정보를 안전하지 않은 페이지로 이동하거나 로그인하지 않고 Googlebot에 입력을 허용하는 것을 고려할 수 있습니다. 단, Google이 스푸핑될 수 있으므로 Googlebot에 입력을 허용하면 페이지의 보안이 사실상 없어질 수 있습니다.
  • 서버 오류(5XX): 이 오류는 가용성 경고를 발생시키므로 가능한 경우 수정해야 합니다. 미리보기 이미지 차트로 이러한 오류가 언제 발생했는지 대략적으로 알 수 있습니다. 클릭하여 세부정보와 정확한 시간을 확인하세요. 이러한 문제가 일시적인 문제인지, 아니면 사이트에서 더 많은 가용성 오류가 발생했는지 파악합니다. Google에서 내 사이트를 너무 자주 크롤링하는 경우 크롤링 속도를 낮춰 달라고 요청할 수 있습니다. 중대한 가용성 문제가 표시되는 경우 크롤링 급증에 관해 알아보세요. 이러한 오류를 해결하는 방법을 알아보려면 서버 오류를 참고하세요.
  • 기타 클라이언트 오류(4XX): 여기에 다른 4XX(클라이언트 측) 오류가 지정되지 않았습니다. 이러한 문제는 해결하는 것이 좋습니다.
  • DNS 응답 없음: DNS 서버가 사이트의 URL 요청에 응답하지 않습니다.
  • DNS 오류: 지정되지 않은 다른 DNS 오류입니다.
  • 가져오기 오류: 잘못된 포트 번호, IP 주소 또는 파싱할 수 없는 응답으로 인해 페이지를 가져올 수 없습니다.
  • 페이지에 연결할 수 없음: 페이지를 검색하는 중에 오류가 발생하여 요청이 서버에 도달하지 못한 경우입니다. 이러한 요청은 서버에 도달하지 않았으므로 로그에 표시되지 않습니다.
  • 페이지 시간 제한: 페이지 요청 시간이 초과되었습니다.
  • 리디렉션 오류: 너무 많은 리디렉션, 빈 리디렉션, 순환 리디렉션 등의 요청 리디렉션 오류입니다.
  • 기타 오류: 위 카테고리에 해당하지 않는 다른 오류입니다.

크롤링된 파일 형식

요청에서 반환된 파일 형식입니다. 각 유형의 백분율 값은 가져온 해당 유형의 바이트 백분율이 아닌 유형에 대한 응답의 백분율입니다.

가능한 값은 다음과 같습니다.

  • HTML
  • 이미지
  • 동영상 - 지원되는 동영상 형식 중 하나
  • 자바스크립트
  • CSS
  • PDF
  • 기타 XML - RSS, KML을 제외한 XML 파일 또는 XML 기반의 다른 형식
  • JSON
  • 신디케이션 - RSS 또는 Atom 피드
  • 오디오
  • 지리 데이터 - KML 또는 기타 지리 데이터
  • 기타 파일 형식 - 여기에 지정되지 않은 다른 파일 형식
  • 알 수 없음(실패) - 요청에 실패하면 파일 형식을 알 수 없음
확인할 사항
가용성 문제가 발생하거나 응답 속도가 느린 경우 이 표를 통해 Google에서 크롤링하는 리소스 유형과 크롤링 속도가 느려질 수 있는 이유를 확인하세요. Google이 차단해야 할 작은 이미지를 많이 요청하나요? Google이 응답성이 낮은 다른 사이트에 호스팅된 리소스를 요청하나요? 여러 파일 형식을 클릭하여 날짜별 평균 응답 시간 차트, 날짜별 요청 횟수를 확인하고 해당 형식의 느린 응답 급증이 일반적인 느린 속도나 비가용성의 급증에 상응하는지 확인합니다.

크롤링 목적

  • 검색: 요청한 URL을 이전에 Google에서 크롤링한 적이 없습니다.
  • 새로고침: 알려진 페이지의 재크롤링입니다.

충분히 자주 재크롤링되지 않은 페이지가 빠르게 변경된다면 사이트맵에 포함되어 있는지 확인합니다. 업데이트 속도가 상대적으로 느린 페이지의 경우 특별히 재크롤링을 요청해야 할 수 있습니다. 최근에 많은 양의 콘텐츠를 추가하거나 사이트맵을 제출했다면 사이트의 검색 크롤링이 급증해야 합니다.

Googlebot 유형

크롤링 요청에 사용되는 사용자 에이전트 유형입니다. Google에서는 다양한 이유로 크롤링하고 다르게 작동하는 수많은 사용자 에이전트를 보유하고 있습니다. 보고되는 유형은 다음과 같습니다.

  • 스마트폰: Googlebot 스마트폰입니다.
  • 데스크톱: Googlebot 데스크톱입니다.
  • 이미지: Googlebot 이미지입니다. 이미지가 페이지 리소스로 로드되면 Googlebot 유형은 이미지가 아닌 페이지 리소스 로드로 계산됩니다.
  • 동영상: Googlebot 동영상입니다. 동영상이 페이지 리소스로 로드되면 Googlebot 유형은 동영상이 아닌 페이지 리소스 로드로 계산됩니다.
  • 페이지 리소스 로드: 페이지에서 사용하는 리소스의 보조 가져오기입니다. Google은 페이지를 크롤링하면서 이미지 또는 CSS 파일과 같은 연결된 중요 리소스를 가져와서 페이지의 색인을 생성하기 전에 렌더링하며, 이 리소스를 요청하는 사용자 에이전트입니다.
  • AdsBot: AdsBot 크롤러 중 하나입니다. 이 요청이 급증한 경우 최근에 사이트에서 동적 검색 광고를 위한 여러 개의 새 타겟을 만들었기 때문일 수 있습니다. 크롤링 속도가 급증한 이유를 참고하세요. AdsBot은 2주마다 URL을 크롤링합니다.
  • StoreBot: 제품 쇼핑 크롤러입니다.
  • 기타 에이전트 유형: 여기에 지정되지 않은 다른 Google 크롤러입니다.

대부분의 크롤링 요청은 기본 크롤러로 실행되어야 합니다. 크롤링이 급증하는 경우 사용자 에이전트 유형을 확인하세요. AdsBot 크롤러로 인해 급증이 발생했다면 크롤링 속도가 급증한 이유를 참고하세요.

문제 해결

크롤링 속도가 너무 빠름

Googlebot에는 크롤링 중에 사이트에 과부하가 걸리지 않도록 하는 알고리즘이 있습니다. 하지만 어떤 이유로든 크롤링 속도를 제한해야 하는 경우 여기에서 방법을 알아보세요.

다음은 크롤링 속도를 낮추기 위한 몇 가지 도움말입니다.

  • robots.txt 파일을 세부적으로 조정하여 호출되면 안 되는 페이지를 차단합니다.
  • 단기 해결책으로 Search Console에서 선호하는 최대 크롤링 속도를 설정할 수 있습니다. 하지만 이 설정은 크롤링을 원하거나 원하지 않는 페이지 또는 리소스를 Google에 구체적으로 알리지 않으므로 장기적으로 사용하는 것은 좋지 않습니다.
  • 무한 캘린더나 무한 검색 페이지와 같은 '무한' 결과가 포함된 페이지에 대한 크롤링을 허용하지 않아야 합니다. robots.txt 또는 NOFOLLOW 태그로 차단하세요.
  • URL이 더 이상 존재하지 않거나 이동한 경우 올바른 응답 코드를 반환해야 합니다. 더 이상 존재하지 않거나 유효하지 않은 URL에는 404나 410을 사용하고 다른 URL로 영구 대체된 URL인 경우 301 리디렉션을 사용합니다(영구적이지 않은 경우 302 사용). 예정된 임시 다운타임인 경우 503을 사용합니다. 처리할 수 없는 문제가 발생하는 경우 서버에서 500 오류를 반환해야 합니다.
  • 사이트에 과부하가 발생하여 긴급하게 속도를 저하시켜야 하는 경우 아래의 크롤링 속도가 급증한 이유를 참고하세요.

크롤링 속도가 급증한 이유

사이트에 많은 새로운 정보 또는 매우 유용한 정보가 포함된 경우 예상보다 더 자주 크롤링될 수 있습니다. 예:

  • 사이트의 여러 부분에 대한 크롤링을 차단 해제함
  • 사이트에 새로운 섹션을 많이 추가함
  • 새 페이지 피드나 URL_Equals 규칙을 추가하여 동적 검색 광고의 새 타겟을 다수 추가함

사이트가 너무 많이 크롤링되어 가용성 문제가 발생하는 경우 사이트를 보호하는 방법은 다음과 같습니다.

  1. 사이트를 너무 많이 크롤링하는 Google 크롤러가 무엇인지 확인합니다. 웹사이트 로그를 살펴보거나 크롤링 통계 보고서를 사용합니다.
  2. 즉각적인 해결 방법:
    • 간단한 해결 방법을 원하면 robots.txt로 과부하가 발생한 에이전트(Googlebot, Adsbot 등)의 크롤링을 차단합니다. 하지만 변경사항이 적용되는 데 최대 하루가 걸릴 수 있습니다.
    • 증가한 로드를 동적으로 감지하여 응답할 수 있다면 게재 한도에 거의 도달했을 때 HTTP 5XX/429를 반환합니다. 하지만 2~3일 넘게 5XX 또는 429를 반환하지는 마세요. Google에서 사이트 크롤링 빈도를 장기적으로 줄이라는 신호로 받아들일 수 있습니다.
  3. 가능한 경우 크롤링 속도 설정 페이지에서 크롤링 속도를 변경합니다.
  4. 2~3일 후에 Google의 크롤링 속도가 조정되면 robots.txt 차단을 삭제하거나 1단계의 오류 코드 반환을 중지합니다.
  5. AdsBot 크롤링이 급증한 경우 사이트에서 URL_Equals 또는 페이지 피드를 사용하여 동적 검색 광고에 대한 타겟을 너무 많이 생성한 것이 문제일 수 있습니다. 이러한 크롤링을 처리할 서버 용량이 부족한 경우 광고 타겟을 제한하거나 URL을 여러 개로 작게 나누어서 추가하거나 게재 용량을 늘려야 합니다. AdsBot은 2주마다 페이지를 크롤링하므로 문제를 해결해야 합니다. 문제를 해결하지 않으면 반복해서 발생합니다.
  6. 크롤링 설정 페이지에서 크롤링 속도를 제한하면 크롤링 속도가 90일 후 자동 조정으로 돌아갑니다.

크롤링 속도가 너무 느림

속성의 크롤링 속도를 명시적으로 낮추지 않은 한 Google에 크롤링 속도를 높여 달라고 요청할 수는 없습니다. 하지만 대규모로 업데이트되거나 자주 업데이트되는 웹사이트의 크롤링을 관리하는 방법을 자세히 알아볼 수는 있습니다.

중소 규모 웹사이트의 경우 Google이 모든 사이트를 크롤링하지 않는 것이 확인되면 웹사이트 사이트맵 업데이트를 시도하고 페이지를 차단하고 있지 않은지 확인합니다.

크롤링 속도가 급감한 이유

일반적으로 Google 크롤링 속도는 1~2주의 시간이 지나면서 상대적으로 안정화됩니다. 급격히 감소한다면 다음과 같은 몇 가지 원인이 있을 수 있습니다.

  • 새롭거나 매우 광범위한 robots.txt 규칙을 추가했습니다. 차단해야 하는 리소스만 차단하고 있는지 확인하세요. Google에서 콘텐츠를 파악하기 위해 CSS나 자바스크립트 등 특정 리소스가 필요한 경우 해당 리소스에 대해 Googlebot을 차단하지 않아야 합니다.
  • 페이지에 손상된 HTML이나 지원되지 않는 콘텐츠가 있습니다. 지원되지 않는 미디어 유형을 사용하거나 페이지가 이미지로만 이루어져 있어서 Googlebot에서 페이지의 콘텐츠를 파싱할 수 없는 경우 페이지를 크롤링할 수 없습니다. URL 검사 도구를 사용하여 Googlebot에서 페이지를 인식하는 방법을 확인하세요.
  • 사이트에서 요청에 느리게 반응하면 Googlebot이 요청을 제한하여 서버 오버로드를 방지합니다. 크롤링 통계 보고서에서 사이트가 더 느리게 반응했는지 확인하세요.
  • 서버 오류율이 증가하면 Googlebot이 요청을 제한하여 서버 오버로드를 방지합니다.
  • 선호하는 최대 크롤링 속도를 낮추지 않았는지 확인하세요.
  • 사이트에 자주 변경하지 않는 정보가 있거나 품질이 높지 않은 경우 자주 크롤링하지 않을 수 있습니다. 사이트를 솔직하게 살펴보고 사이트와 관련되지 않은 사용자로부터 중립적인 의견을 받은 후 사이트를 전반적으로 개선하는 방법과 개선할 부분을 생각해 봅니다.

크롤링 로그 또는 크롤링 세부정보 섹션 총계보다 훨씬 큰 크롤링 총계

총 크롤링 수가 크롤링 요청 분석 섹션(응답별, 유형별 등)의 총계보다 훨씬 큰 경우는 robots.txt 파일을 너무 오랫동안 사용할 수 없어서 Google이 사이트를 크롤링할 수 없을 때 발생할 수 있습니다. 이 경우 Google은 robots.txt 파일을 사용할 수 있을 때 했을 크롤링을 계산에 넣지만 실제로 실행하지는 않습니다. robots.txt 가져오기 상태에서 이런 문제가 있는지 확인하세요.

도움이 되었나요?
어떻게 하면 개선할 수 있을까요?