Как работает Google Поиск

Как Google обнаруживает веб-страницы, сканирует их и выдает результаты

В этой статье приведены два объяснения принципов работы Google Поиска: краткое и подробное.

Google получает информацию из разных источников. Вот примеры некоторых из них: 

  • веб-страницы;
  • контент, добавленный пользователями, например опубликованный ими в сервисах "Google Мой бизнес" и "Google Карты";
  • отсканированные книги;
  • открытые базы данных в Интернете;
  • множество других источников.

В этой статье речь пойдет только о контенте, размещенном на веб-страницах.

Краткое объяснение

Формирование результатов поиска по веб-страницам проходит в три этапа, которые описаны ниже.

Сканирование

Сначала нужно определить, какие страницы есть в Интернете. Поскольку их официального реестра не существует, роботу Google приходится постоянно искать новые страницы и добавлять их к списку уже известных. Этот процесс называется сканированием.

Информация о существующих страницах поступает нам несколькими способами. В одних случаях робот Google самостоятельно обнаруживает страницы в процессе сканирования. Также он может переходить на них по ссылкам, размещенным на других страницах. Кроме того, владелец сайта может сам отправить в Google файл Sitemap со списком страниц, которые нужно сканировать. Наконец, если вы создали свой сайт с помощью стороннего сервиса, например Wix или Blogger, то такой поставщик услуг хостинга может сообщать Google о том, что нужно просканировать добавленные или измененные вами страницы.

Как повысить эффективность сканирования

  • Вы можете запрашивать сканирование отдельных URL, если изменения вносились только на соответствующих страницах.
  • На страницах, которые уже известны роботу Google, размещайте ссылки на свои новые страницы при их публикации. Обратите внимание, что наш робот не будет переходить по ссылкам, которые по какой-либо причине не соответствуют требованиям Руководства Google для веб-мастеров, например указаны в объявлениях и комментариях или размещены за плату.

 

Мы не обеспечиваем более частое сканирование или более высокий рейтинг сайта за плату. Те, кто утверждает обратное, вводят вас в заблуждение.

Индексирование

После обнаружения страницы нужно определить, какой теме посвящено ее содержание. Этот процесс называется индексированием. Он заключается в том, что Google анализирует контент страницы и систематизирует найденные на ней изображения и встроенные видео. Полученная информация сохраняется в индексе Google – огромной базе данных, размещенной на множестве компьютеров.

Как повысить эффективность индексирования

  • Придумывайте короткие и информативные заголовки страниц.
  • Используйте на страницах подходящие тематические заголовки.
  • На ваших страницах должно быть достаточное количество текста. Google умеет распознавать содержание некоторых картинок и роликов, но не так эффективно, как в случае с текстом. По возможности создавайте для своих видео и изображений комментарии с помощью различных атрибутов, например alt.

Выдача результатов и ранжирование

Когда пользователь вводит запрос, Google на основе многочисленных факторов ищет в своем индексе самые подходящие результаты. К таким факторам относятся местоположение, язык, тип устройства пользователя (обычный компьютер или телефон) и т. д. Например, результаты по запросу "ремонт велосипедов" будут различаться в зависимости от того, находитесь вы в Париже или в Гонконге. Ранжирование выполняется по заданным алгоритмам, и Google не повышает рейтинг страниц за плату.

Как повысить эффективность ранжирования

Подробное объяснение

Хотите узнать больше? Мы это предусмотрели.

Версия для любознательных

 

Сканирование

Сканирование – это процесс, в ходе которого робот Googlebot обнаруживает новые и обновленные страницы для добавления в индекс Google.

Мы используем огромную сеть компьютеров, чтобы просканировать содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google (или пауком). Этот робот действует полностью автоматически: он самостоятельно определяет, какие сайты сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом из них.

Процесс сканирования Google начинает со списка URL веб-страниц, созданного в ходе предыдущих сеансов сканирования. Его дополняют данные из файлов Sitemap, предоставленных веб-мастерами. Просматривая каждый из этих сайтов, поисковый робот Googlebot находит на каждой странице ссылки и добавляет их в список страниц, подлежащих сканированию. Все новые и измененные сайты, а также неработающие ссылки помечаются, и впоследствии соответствующие данные появляются в индексе Google.

Как Google находит страницы?

Робот Google находит страницы различными способами. Помимо прочего, к ним относятся следующие:

  • переход по ссылкам с других сайтов;
  • обработка данных в файлах Sitemap.

Как Google определяет, какие страницы не нужно сканировать?

  • Если доступ к странице заблокирован в файле robots.txt, она не будет сканироваться, но все равно может быть проиндексирована, если на другом сайте есть ссылка на нее. Обратите внимание, что Google может по содержанию ссылки определить тему страницы и проиндексировать ее, не анализируя опубликованные на ней материалы.
  • Робот Google не может сканировать страницы, недоступные анонимным пользователям, то есть для просмотра которых нужно выполнить авторизацию или вход.

Как повысить эффективность сканирования

Следуйте представленным ниже инструкциям, чтобы упростить для Google поиск нужных страниц на вашем сайте.

Индексирование

Робот Googlebot анализирует каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, в какой части страницы они находятся. Кроме того, мы учитываем данные из основных тегов и атрибутов, например тегов <title> и атрибутов alt. Робот Googlebot способен анализировать многие типы контента, но не все. К примеру, не распознается содержание некоторых мультимедийных файлов.

Обратите внимание, что сканированию не подлежат страницы с директивой noindex (в виде заголовка или тега). Но если робот Google из-за запрета доступа в файле robots.txt, обязательной авторизации или по другой причине не видит как саму страницу, так и директиву на ней, то страница все равно может быть проиндексирована.

Как повысить эффективность индексирования

Существуют различные способы, позволяющие упростить для Google анализ контента, например следующие:

Выдача результатов

Когда пользователь вводит поисковый запрос, наша система находит в индексе подходящие страницы и показывает наиболее релевантные результаты. Релевантность определяется различными факторами, которых насчитывается более 200, причем мы постоянно работаем над улучшением нашего алгоритма. При ранжировании результатов Google учитывает удобство просмотра, поэтому убедитесь, что ваш сайт быстро загружается и оптимизирован для мобильных устройств.

Как повысить эффективность ранжирования

  • Если ваш сайт предназначен для пользователей из определенных регионов или носителей определенных языков, сообщите об этом Google.
  • Обеспечьте быструю загрузку своего сайта и оптимизируйте его для мобильных устройств.
  • Следуйте рекомендациям для веб-мастеров, чтобы избежать распространенных ошибок и улучшить рейтинг своего сайта.
  • Попробуйте использовать структурированные данные для формирования расширенных результатов, например карточек с рецептом или статьей.
  • Внедрите технологию AMP для ускорения загрузки страниц на мобильных устройствах. Для некоторых AMP-страниц также доступны дополнительные функции, такие как карусель "Главные новости".
  • Поскольку алгоритм Google постоянно улучшается, не стоит пытаться разгадать его и соответствующим образом изменить свой сайт. Вместо этого создавайте хороший оригинальный контент, который понравится пользователям, и следуйте при этом нашим рекомендациям.

Для самых любознательных

Вы можете изучить ещё более подробные материалы, посвященные принципам работы Google Поиска (с иллюстрациями и видео).

Была ли эта статья полезна?
Как можно улучшить эту статью?