초보 사용자

Google 검색 작동 방식

Google이 웹페이지를 발견, 크롤링, 게재하는 방법 알아보기

Google은 어떻게 작동하나요? 다음은 이에 대한 짧은 버전의 답변과 긴 버전의 답변입니다.

Google은 다음을 포함한 여러 소스에서 정보를 가져옵니다. 

  • 웹페이지
  • Google 마이 비즈니스 및 지도 사용자 제출 내역과 같은 사용자 제출 콘텐츠
  • 도서 스캔
  • 인터넷의 공개 데이터베이스
  • 그 외 다수의 기타 소스

그 중 이 페이지에서는 웹페이지를 중점적으로 다룹니다.

짧은 버전

Google에서는 세 가지 기본 단계에 따라 웹페이지를 소스로 결과를 생성합니다.

크롤링

첫 번째 단계는 웹에 어떤 페이지가 존재하는지 파악하는 것입니다. 모든 웹페이지의 중심 레지스트리가 있는 것이 아니므로 Google은 계속해서 새 페이지를 검색하여 알려진 페이지 목록에 추가해야 합니다. 이미 방문한 적이 있는 일부 페이지는 알려진 페이지 목록에 이미 추가되어 있습니다. 다른 페이지는 알려진 페이지에서 새 페이지로 연결되는 링크를 따라갈 때 발견됩니다. 또한 어떤 페이지는 웹사이트 소유자가 Google에서 크롤링할 수 있도록 페이지 목록(사이트맵)을 제출하는 방법으로 발견됩니다. Wix나 Blogger 같은 관리 웹 호스트를 사용 중인 경우 관리 웹 호스트에서 Google에 업데이트된 페이지나 신규 페이지를 크롤링하라고 알릴 수도 있습니다.

Google에서 페이지의 URL을 발견하면 내용을 확인하기 위해 페이지를 방문(크롤링)합니다. 이 과정에서 페이지를 렌더링하고 텍스트 및 비텍스트 콘텐츠와 전체적인 시각 레이아웃을 모두 분석하여 검색결과의 어느 부분에 표시해야 할지 결정합니다. 사이트를 더 잘 이해하게 되면 Google은 내 콘텐츠를 찾는 사용자와 사이트를 더욱 효과적으로 연결할 수 있습니다.

사이트 크롤링을 개선하려면 아래 사항을 점검하세요.

  • Google이 사이트의 페이지에 액세스할 수 있고 페이지가 올바르게 표시되는지 확인합니다. Google은 익명의 사용자(비밀번호 또는 정보가 없는 사용자)로 웹에 액세스합니다. 또한 Google이 페이지를 올바르게 이해하려면 페이지의 모든 이미지와 기타 요소를 확인할 수 있어야 합니다. 모바일 친화성 테스트 도구에 페이지의 URL을 입력하여 빠르게 확인할 수 있습니다.
  • 단일 페이지를 만들거나 업데이트한 경우 Google에 개별 URL을 제출할 수 있습니다. Google에 다수의 새 페이지 또는 업데이트된 페이지를 알리려면 사이트맵을 사용하세요.
  • Google에 하나의 페이지에 대한 크롤링을 요청하려면 페이지를 홈페이지로 설정하세요. Google의 입장에서 사이트에서 가장 중요한 페이지는 홈페이지입니다. 사이트 전체가 크롤링되게 하려면 홈페이지(및 모든 페이지)에 사이트의 모든 중요한 섹션 및 페이지로 이어지는 양질의 사이트 탐색 시스템을 갖추세요. 이렇게 하면 사용자(및 Google)가 사이트를 탐색하는 데 도움이 됩니다. 1,000페이지 미만의 소규모 사이트의 경우 Google에 홈페이지를 알리기만 하면 됩니다. 단, Google이 홈페이지에서 시작되는 링크의 경로를 따라 다른 모든 페이지에 도달할 수 있어야 합니다. 
  • Google이 이미 알고 있는 다른 페이지에서 내 페이지로 연결되게 합니다. 하지만 광고 링크, 다른 사이트에서 구매한 링크, 댓글에 포함된 링크 등 Google 웹마스터 가이드라인을 위반하는 링크는 Google에서 따라가지 않습니다.

 

Google은 금전적인 대가를 받고 사이트 크롤링 횟수를 늘리거나 순위를 높이지 않습니다. 누군가 이와 반대로 이야기한다면 이는 사실이 아닙니다.

색인 생성

페이지가 발견되면 Google은 페이지가 어떤 페이지인지 파악하려고 합니다. 이 과정을 색인 생성이라고 합니다. Google은 페이지의 콘텐츠를 분석하고 삽입된 이미지와 동영상 파일의 목록을 작성하고 그 외 다른 방법으로 페이지를 파악하려고 합니다. 이 정보는 수많은 컴퓨터에 저장된 거대한 데이터베이스인 Google 색인에 저장됩니다.

페이지 색인 생성을 개선하려면 다음 사항을 점검하세요.

  • 페이지 제목은 짧고 의미있게 만듭니다.
  • 페이지의 주제를 전달하는 페이지 제목을 사용합니다.
  • 이미지보다 텍스트를 사용하여 콘텐츠를 전달합니다. (일부 이미지와 동영상의 경우에 Google이 이해할 수는 있지만 텍스트만큼은 아닙니다.) 적어도 대체 텍스트와 기타 속성을 적절히 이용해 동영상이미지에 주석을 달아 주시기 바랍니다.

게재 (및 순위 지정)

사용자가 검색어를 입력하면 Google이 여러 요소를 바탕으로 색인에서 관련성 있는 답변을 찾기 위해 노력합니다. Google은 가장 높은 품질의 답변을 결정하고, 최상의 사용자 환경과 가장 적절한 답변을 제공할 수 있는 다른 요소(예: 사용자의 위치, 언어, 데스크톱 또는 휴대전화 등의 기기)를 고려합니다. 예를 들어 '자전거 수리점'을 검색하면 파리에 있는 사용자와 홍콩에 있는 사용자는 서로 다른 답이 표시됩니다. Google은 금전적인 대가를 받고 페이지의 순위를 높이지 않습니다. 사이트의 순위는 프로그래매틱 방식으로 결정됩니다.

게재 및 순위 개선하기

긴 버전

좀 더 자세한 정보를 원하시나요? 다음을 참조하세요.

긴 버전

크롤링

크롤링은 Googlebot이 새로운 페이지 및 업데이트된 페이지를 방문하여 Google 색인에 추가하는 과정입니다.

Google은 다양한 종류의 컴퓨터를 사용하여 수십억 개의 웹페이지를 가져옵니다. 이 작업을 '크롤링'이라고 합니다. 웹페이지를 가져오는 프로그램을 Googlebot이라고 합니다. 로봇, 크롤러 또는 스파이더라고도 알려져 있습니다. Googlebot은 알고리즘 프로세스를 사용하여 크롤링할 사이트, 각 사이트에서 가져올 페이지 수, 가져오기를 실행할 빈도를 결정합니다.

Google의 크롤링은 이전 크롤링 과정에서 생성되어 웹마스터가 제공한 사이트맵 데이터가 추가된 웹페이지 URL 목록부터 시작합니다. Googlebot이 페이지를 방문하면 페이지의 링크를 찾아 크롤링할 페이지 목록에 추가합니다. 이렇게 파악된 새 사이트, 기존 사이트의 변경사항 및 비활성 링크에 따라 Google 색인이 업데이트됩니다.

크롤링하는 동안 Google은 최신 버전의 Chrome을 사용하여 페이지를 렌더링합니다. 렌더링 과정 중에 찾은 페이지 스크립트를 실행합니다. 사이트에서 동적으로 생성된 콘텐츠를 사용하는 경우 자바스크립트 SEO 기본사항을 따르세요.

기본 크롤링/보조 크롤링

Google은 모바일 크롤러와 데스크톱 크롤러라는 두 가지 크롤러를 사용하여 웹사이트를 크롤링합니다. 각 크롤러 유형은 해당 유형의 기기로 페이지를 방문하는 사용자를 시뮬레이션합니다.

Google은 사이트에서 한 가지 크롤러 유형(모바일 또는 데스크톱)을 기본 크롤러로 사용합니다. Google에서 크롤링하는 사이트의 모든 페이지는 기본 크롤러로 크롤링됩니다. 모든 새 웹사이트의 기본 크롤러는 모바일 크롤러입니다.

또한 Google은 다른 크롤러 유형(모바일 또는 데스크톱)으로 사이트의 몇몇 페이지를 다시 크롤링합니다. 이를 보조 크롤링이라고 하며, 이를 통해 다른 기기 유형에서 사이트가 얼마나 잘 작동하는지 확인합니다.

Google은 크롤링하지 말아야 하는 페이지를 어떻게 파악하나요?

  • robots.txt에서 차단된 페이지는 크롤링되지 않지만, 다른 페이지에서 연결된 경우에는 여전히 색인 생성될 수 있습니다. (Google은 해당 페이지를 가리키는 링크로 페이지의 콘텐츠를 추론한 후 콘텐츠를 파싱하지 않고 페이지의 색인을 생성할 수 있습니다.)
  • Google은 익명 사용자가 액세스할 수 없는 페이지를 크롤링할 수 없습니다. 따라서 로그인 또는 기타 승인 보호가 설정된 경우 페이지가 크롤링되지 않습니다.
  • 이미 크롤링되었으며 다른 페이지의 중복으로 간주되는 페이지는 더 적은 빈도로 크롤링됩니다.

크롤링 개선하기

다음과 같은 기술을 사용하면 Google이 내 사이트에서 올바른 페이지를 발견하게 하는 데 도움이 됩니다.

색인 생성

Googlebot은 크롤링하는 각 페이지를 처리하여 페이지의 콘텐츠를 이해합니다. 여기에는 <title> 태그나 Alt 속성, 이미지, 동영상 등의 텍스트 콘텐츠, 주요 콘텐츠 태그 및 속성을 처리하는 것이 포함됩니다. Googlebot은 대부분의 콘텐츠 유형을 처리할 수 있지만, 일부 처리가 불가능한 유형도 있습니다. 예를 들어 일부 리치 미디어 파일의 콘텐츠는 처리할 수 없습니다.

Google에서는 크롤링과 색인 생성을 하는 중에 페이지가 다른 페이지의 중복 또는 표준 페이지인지 판단합니다. 페이지가 중복으로 간주되면 크롤링 빈도가 훨씬 적어집니다. 유사한 페이지는 문서로 그룹화됩니다. 이 문서는 표준 페이지(그룹의 가장 대표적인 페이지) 및 발견한 중복 항목(같은 페이지로 연결되는 대체 URL 또는 같은 페이지의 대체 모바일/데스크톱 버전)을 포함하는 1개 이상의 페이지 그룹입니다.

Google에서는 NOINDEX 명령어(헤더 또는 태그)가 포함된 페이지의 색인을 생성하지 않습니다. 하지만 Google에서 명령어를 읽을 수 있어야 합니다. 페이지가 robots.txt 파일이나 로그인 페이지 등의 수단으로 차단된 경우 Google에서 방문하지 않았는데도 페이지의 색인이 생성될 수 있습니다.

색인 생성 개선하기

다양한 기술을 사용해 Google의 페이지 콘텐츠 파악 성능을 개선할 수 있습니다.

'문서'란 무엇인가요?

Google 내부적으로 웹은 문서의 (방대한) 집합에 해당하며, 각 문서는 하나 이상의 웹페이지에 해당합니다. 이러한 페이지는 서로 다른 URL로 접속 가능하지만 완전히 동일하거나 아주 동일하지만 본질적으로는 같은 콘텐츠를 말합니다. 문서의 서로 다른 URL이 완전히 동일한 페이지로 접속될 수도 있습니다(예를 들어, example.com/dresses/summer/1234 및 example.com?product=1234가 같은 페이지를 표시하는 경우). 또는 서로 다른 기기를 사용하는 사용자를 위해 같은 페이지의 약간씩 다른 변형을 표시하는 경우도 있습니다(예를 들어, 데스크톱 사용자에게는 example.com/mypage를, 모바일 사용자에게는 m.example.com/mypage 표시).

Google은 문서의 URL 중 하나를 선택하여 문서의 표준 URL로 정의합니다. 문서의 표준 URL은 Google이 가장 자주 크롤링하고 색인을 생성하는 URL이고, 다른 URL은 중복 URL이나 대체 URL로 간주되며, 사용자의 요청에 따라 때때로 크롤링되거나 게재될 수 있습니다. 예를 들어, 문서의 표준 URL이 모바일 URL인 경우 Google은 데스크톱에서 검색하는 사용자를 위해 여전히 데스크톱(대체) URL을 게재할 수 있습니다.

대부분의 Search Console 보고서의 경우 문서의 표준 URL을 기반으로 데이터를 표시합니다. URL 검사 도구와 같은 일부 도구는 대체 URL 테스트를 지원하지만, 표준 URL 검사는 대체 URL에 관한 정보도 제공해야 합니다.

표준 URL이라고 생각하는 URL을 Google에 밝힐 수 있지만 Google은 여러 이유로 다른 표준 URL을 선택할 수 있습니다.

다음은 용어 요약과 Search Console에서의 용례입니다.

  • 문서: 유사한 페이지의 모음입니다. 사이트에 중복 페이지가 있는 경우 표준 URL이 있고, 대체 URL 또한 있을 수 있습니다. 문서의 URL은 같은 또는 다른 조직의 것일 수 있습니다(예: www.google.com의 'google'과 같은 루트 도메인). Google은 플랫폼(모바일/데스크톱), 사용자의 언어 또는 위치 및 여러 다양한 변수에 따라 검색결과에 표시할 최선의 URL을 선택합니다. Google은 자연 크롤링이나, 리디렉션 또는 <link rel=alternate/canonical> 태그 등 사이트에서 구현한 기능으로 사이트의 관련 페이지를 발견합니다. 다른 조직의 관련 페이지는 사이트에서 (리디렉션이나 링크 태그를 통해) 명시적으로 코딩한 경우에만 대체 페이지로 표시될 수 있습니다.
  • URL: 사이트의 특정 콘텐츠에 접속하는 데 사용하는 URL입니다. 사이트에서 동일한 페이지에 다른 URL을 정할 수도 있습니다.
  • 페이지: 하나 이상의 URL에 접속될 수 있는 특정 웹페이지입니다. 사용자의 플랫폼(모바일, 데스크톱, 태블릿 등)에 따라 다른 버전의 페이지가 있을 수 있습니다.
  • 버전: 페이지의 한 가지 변형으로, 일반적으로 '모바일', '데스크톱', 'AMP'로 분류됩니다(단, AMP 자체에 모바일/데스크톱 버전이 있을 수 있음). 각 버전은 사이트 구성에 따라 URL이 다르거나(example.com 및 m.example.com) 같을 수 있습니다(사이트에서 동적 게재반응형 웹 디자인을 사용하는 경우 같은 URL에서 같은 페이지의 다른 버전을 표시할 수 있음). 다른 언어 버전은 다른 버전으로 간주되지 않지만 다른 문서로 취급됩니다.
  • 표준 페이지 또는 URL: Google이 문서의 가장 대표라고 간주하는 URL입니다. Google은 항상 이 URL을 크롤링하지만 문서의 중복 URL을 크롤링할 때도 있습니다.
  • 대체/중복 페이지 또는 URL: Google이 때때로 크롤링할 수 있는 문서 URL입니다. Google은 사용자 및 요청에 맞는 경우 이 URL을 게재하기도 합니다. 예를 들어, 데스크톱 사용자를 위한 대체 URL은 표준 모바일 URL 대신 데스크톱 요청을 위해 게재됩니다.
  • 사이트: 보통 웹사이트의 동의어로 사용되지만(개념적으로 관련된 웹페이지 모음), 때때로 Search Console 속성의 동의어로 사용되기도 합니다. 단, 속성은 사이트의 일부분으로만 정의될 수 있습니다. 사이트는 하위 도메인을 포함할 수 있습니다(AMP 페이지가 제대로 연결된 경우 조직도 가능).

콘텐츠가 같고 언어가 다른 페이지는 hreflang 태그를 사용하여 서로를 참조하는 다른 문서에 저장되므로, 번역된 콘텐츠에 hreflang 태그를 사용하는 것이 중요합니다.

결과 게재

사용자가 검색어를 입력하면 Google 컴퓨터는 색인에서 일치하는 페이지를 검색하고 사용자와 가장 관련성이 높다고 판단되는 결과를 반환합니다. 관련성은 수백 가지 요인으로 결정되며, Google은 항상 알고리즘 개선을 위해 노력합니다. Google에서 결과를 선택하고 순위를 지정할 때는 사용자 환경을 고려하므로 페이지가 빠르게 로드되며 모바일 친화적인지 확인하세요.

게재 개선하기

  • 결과가 특정 위치 또는 언어의 사용자를 대상으로 하는 경우 Google에 선호사항을 알릴 수 있습니다.
  • 페이지가 빠르게 로드되며 모바일 친화적인지 확인합니다.
  • 일반적인 실수를 피하고 사이트의 순위를 올릴 수 있도록 웹마스터 가이드라인을 따릅니다.
  • 레시피 카드나 기사 카트와 같이 사이트에 검색결과 기능 구현을 고려합니다.
  • 휴대기기에서 빠르게 로드될 수 있도록 AMP를 구현합니다. 일부 AMP 페이지는 주요뉴스 캐러설과 같은 추가 검색 기능을 사용할 수 있습니다.
  • Google의 알고리즘은 계속해서 개선되고 있습니다. 알고리즘을 추측하여 이에 맞게 페이지를 설계하려고 하기보다는 사용자가 원하는 양질의 최신 콘텐츠를 제공하기 위해 노력하고 가이드라인을 따르세요.

더 긴 버전

여기에서 더 긴 버전의 Google 검색 작동 방식(그림 및 동영상 포함)을 확인하세요.

도움이 되었나요?
어떻게 하면 개선할 수 있을까요?