Как работает Google Поиск

Как Google обнаруживает веб-страницы, сканирует их и выдает результаты

В этой статье приведены два объяснения принципов работы Google Поиска: краткое и подробное.

Google получает информацию из разных источников. Вот примеры некоторых из них:

  • веб-страницы;
  • контент, добавленный пользователями, например опубликованный ими в сервисах "Google Мой бизнес" и "Google Карты";
  • отсканированные книги;
  • открытые базы данных в Интернете;
  • множество других источников.

В этой статье речь пойдет только о контенте, размещенном на веб-страницах.

Краткое объяснение

Формирование результатов поиска по веб-страницам проходит в три этапа, которые описаны ниже.

Сканирование

Сначала нужно определить, какие страницы есть в Интернете. Поскольку их официального реестра не существует, роботу Google приходится постоянно искать новые страницы и добавлять их к списку уже известных. Информация о существующих страницах поступает нам несколькими способами. В одних случаях робот Google самостоятельно обнаруживает страницы в процессе сканирования. Также он может переходить на них по ссылкам, размещенным на других страницах. Кроме того, владелец сайта может сам отправить в Google файл Sitemap со списком страниц, которые нужно сканировать. Наконец, если вы создали свой сайт с помощью стороннего сервиса, например Wix или Blogger, то такой поставщик услуг хостинга может сообщать Google о том, что нужно просканировать добавленные или измененные вами страницы.

Обнаружив URL страницы, робот Google переходит на нее (сканирует), чтобы узнать, что на ней опубликовано. При этом он анализирует как текстовый, так и нетекстовый контент, а также общий дизайн, чтобы определить, как она должна отображаться на странице результатов поиска. Чем точнее будут интерпретированы материалы вашего сайта, тем точнее мы сможем сопоставить его с поисковыми запросами пользователей.

Как повысить эффективность сканирования

  • Убедитесь, что Google может получить доступ к страницам вашего сайта и они выглядят так, как должны. Google сканирует сайты анонимно (т. е. не использует пароли для входа в аккаунты). Чтобы робот Google мог правильно интерпретировать веб-страницу, у него также должен быть доступ ко всем изображениям и другим ее элементам. Чтобы проверить это, введите URL страницы в инструменте Проверка оптимизации для мобильных устройств.
  • Если вы создали или обновили одну страницу, вы можете отправить в Google один URL. Если таких страниц несколько, используйте файл Sitemap.
  • Если вам требуется сканирование только одной страницы, выберите для этого главную. Именно она считается наиболее важной страницей вашего сайта. Если вам нужно полное сканирование сайта, убедитесь, что на нем реализована удобная навигация со ссылками на все ключевые разделы и страницы ресурса. Благодаря этому пользователям и роботам Google будет удобно ориентироваться на вашем сайте. Если у вас небольшой сайт (меньше 1000 страниц), достаточно отправить в Google только главную страницу (при условии, что робот Google сможет открыть остальные страницы вашего сайта, переходя по ссылкам с главной страницы).
  • На страницах, которые уже известны роботу Google, размещайте ссылки на свои новые страницы при их публикации. Обратите внимание, что наш робот не будет переходить по ссылкам, которые не соответствуют требованиям Руководства Google для веб-мастеров, например указаны в объявлениях и комментариях или размещены за плату.

 

Мы не обеспечиваем более частое сканирование или более высокий рейтинг сайта за плату. Те, кто утверждает обратное, вводят вас в заблуждение.

Индексирование

После обнаружения страницы нужно выделить ее содержание. Этот процесс называется индексированием. Он заключается в том, что Google анализирует контент страницы и систематизирует найденные на ней изображения и встроенные видео. Полученная информация сохраняется в индексе Google – огромной базе данных, размещенной на множестве компьютеров.

Как повысить эффективность индексирования

  • Придумывайте короткие и информативные заголовки страниц.
  • Используйте на страницах подходящие тематические заголовки.
  • Следите за тем, чтобы как можно большая часть материалов была представлена текстом или имела описание. Google умеет распознавать содержание некоторых картинок и роликов, но не так эффективно, как в случае с текстуальным контентом. По возможности добавляйте к видео и изображениям описания с помощью различных атрибутов, например alt.

Выдача результатов и ранжирование

Когда пользователь вводит запрос, Google на основе многочисленных факторов ищет в своем индексе самые подходящие результаты. К таким факторам относятся местоположение, язык, тип устройства пользователя (обычный компьютер или телефон) и т. д. Например, результаты по запросу "ремонт велосипедов" будут различаться в зависимости от того, находитесь вы в Париже или в Гонконге. Ранжирование выполняется по заданным алгоритмам, и Google не повышает рейтинг страниц за плату.

Как повысить эффективность ранжирования

Подробное объяснение

В этом разделе содержится более детальная информация о том, как работает Google Поиск.

Подробное объяснение

Сканирование

Сканирование – это процесс, в ходе которого робот Googlebot переходит на новые и обновленные страницы, чтобы добавить их в индекс Google.

Для его работы используется огромное количество компьютеров, ведь он обрабатывает миллиарды страниц. Программа, выполняющая сканирование, называется роботом Google (или "пауком"). Робот Googlebot использует специальный алгоритм, определяющий сайты, которые нужно сканировать, частоту сканирования и количество извлекаемых страниц на каждом сайте.

Процесс сканирования начинается со списка URL страниц, созданного на основе предыдущих сеансов сканирования. Его дополняют данные из файлов Sitemap, предоставленных веб-мастерами. Когда робот Googlebot переходит на страницу, он находит на ней ссылки и добавляет их в список сканируемых страниц. Все новые и измененные сайты, а также неработающие ссылки помечаются, и впоследствии соответствующие данные появляются в индексе Google.

В ходе сканирования Google отображает страницу в последней версии Chrome, а также запускает все скрипты, которые находит на ней. Если на вашем сайте используется динамически генерируемый контент, убедитесь, что вы соблюдаете основы поисковой оптимизации сайтов на JavaScript.

Основное и дополнительное сканирование

Google использует два разных типа поисковых роботов: для мобильных сайтов и для обычных. Каждый из них имитирует посещение страницы пользователем с устройства соответствующего типа.

Один из этих типов (для мобильных сайтов или для обычных) используется в качестве основного: все страницы вашего сайта будут сканироваться роботом основного типа. При сканировании всех новых веб-ресурсов в качестве основного используется поисковый робот для мобильных сайтов.

Кроме того, Google некоторые страницы сайта сканируются роботом другого типа (для мобильных сайтов или обычных). Такое сканирование называется дополнительным и выполняется для того, чтобы понять, насколько сайт адаптирован к разным типам устройств.

Как Google определяет, какие страницы не нужно сканировать?

  • Если доступ к странице заблокирован в файле robots.txt, она не будет сканироваться, но все равно может быть проиндексирована, если на другом сайте есть ссылка на нее. Обратите внимание, что Google может по содержанию ссылки определить тему страницы и проиндексировать ее, не анализируя опубликованные на ней материалы.
  • Робот Google не может сканировать страницы, недоступные анонимным пользователям, то есть для просмотра которых нужно выполнить авторизацию или вход.
  • Реже сканируются страницы, считающиеся точными копиями уже просканированных страниц.

Как повысить эффективность сканирования

Следуйте представленным ниже инструкциям, чтобы упростить для Google поиск нужных страниц на вашем сайте.

Индексирование

Робот Googlebot обрабатывает все просканированные страницы и интерпретирует их контент, в том числе: текст, основные теги и атрибуты (например, теги <title> и атрибуты alt), изображения, видео и т. п. Робот Googlebot способен анализировать многие типы контента, но не все. К примеру, не распознается содержание некоторых мультимедийных файлов.

Между процедурами сканирования и индексирования робот Google определяет, является ли обрабатываемая страница дубликатом или канонической версией другой страницы. Если страница считается дубликатом, сканироваться она будет значительно реже. Похожие страницы объединяются в документ, который состоит из канонической (основной) страницы и ее копий (это могут быть альтернативные URL той же страницы или альтернативная мобильная или обычная версия одной страницы).

Обратите внимание, что Google не индексирует страницы, к которым применена директива noindex (в теге или HTTP-заголовке). Но даже если робот Google из-за запрета доступа в файле robots.txt, обязательной авторизации или какой-либо другой причины не видит как саму страницу, так и директиву, страница все равно может быть проиндексирована.

Как повысить эффективность индексирования

Существуют различные способы, позволяющие упростить для Google анализ контента, например следующие:

Что такое документ

Все отсканированные сайты хранятся на серверах Google в виде (огромного) набора документов. Каждый документ представляет собой одну или несколько веб-страниц. Это могут быть одинаковые или похожие страницы с практически идентичным контентом, имеющие разные URL. Однако при переходе по этим URL открывается одна и та же веб-страница (например, example.com/dresses/summer/1234 и example.com?product=1234) или же ее версии, адаптированные для разных типов устройств (например, example.com/mypage для компьютеров и m.example.com/mypage для мобильных устройств).

Google выбирает один из URL в документе и определяет его как канонический. Google сканирует и индексирует канонический URL документа чаще других: остальные URL считаются копиями или альтернативными вариантами и могут сканироваться время от времени или отображаться в результатах поиска. Например, если каноническим является мобильный URL документа, Google может показать в результатах поиска URL для пользователей компьютеров (альтернативный вариант).

В большинстве отчетов Search Console представлены данные по каноническому URL документа. Есть инструменты (например, инструмент проверки URL), с помощью которых можно тестировать альтернативные URL. Однако информация о них должна появляться и при проверке канонического URL.

Даже если вы сами укажете канонический URL, Google по той или иной причине может выбрать в качестве канонической другую страницу.

Ниже приведен краткий список терминов, используемых в Search Console.

  • Документ – это набор похожих страниц: канонический URL и его альтернативные варианты (если у вас есть разные версии страниц). URL в документе могут относиться к одной или разным организациям (корневому домену, например "google" в адресе www.google.com). При выборе URL, который будет отображаться в результатах поиска, Google учитывает такие факторы, как платформа (мобильное устройство или компьютер), язык пользователя, его местоположение и т. д. Связанные страницы на вашем сайте Google находит путем обычного сканирования, через настроенную вами переадресацию или по тегам <link rel=alternate/canonical>. А связанные страницы, относящиеся к другим организациям, могут быть идентифицированы как альтернативные варианты, только если это явно указано в коде вашего сайта (при помощи переадресации или тегов link).
  • URL – это адрес, который используется для перехода на определенный раздел сайта. Одна страница сайта может иметь разные URL.
  • Страница. Веб-страница, которая открывается при переходе по одному или нескольким URL. Страница может иметь несколько вариантов для разных платформ – для смартфонов, компьютеров, планшетов и т. д.
  • Версия. Один из вариантов страницы: для мобильных устройств, компьютеров или AMP (AMP может иметь мобильную и обычную версии). В зависимости от конфигурации сайта версии могут иметь разные URL (например, example.com и m.example.com) или одинаковые (если на сайте используется динамический показ или адаптивный дизайн, один URL может соответствовать разным версиям страницы). Варианты страницы на разных языках считаются не разными версиями, а разными документами.
  • Каноническая страница или канонический URL. URL, который Google считает наиболее часто используемым в документе. Google всегда сканирует именно этот URL. Его дубликаты сканируются периодически.
  • Альтернативная страница или альтернативный URL. URL документа, который может периодически сканироваться роботом Google. Google также показывает эти URL, если они соответствуют интересам пользователя (например, для пользователей компьютеров будет отображаться альтернативный URL для компьютеров, а не канонический URL для мобильных устройств).
  • Сайт. Обычно под сайтом понимается веб-сайт (набор концептуально связанных веб-страниц). Иногда этот термин может означать ресурс Search Console, хотя чаще всего ресурсом называют только часть сайта. Сайт может включать в себя несколько субдоменов (и даже организаций – через связанные AMP-страницы).

Страницы с одинаковым контентом на разных языках хранятся в разных документах, ссылающихся друг на друга через теги hreflang. Поэтому не забывайте использовать эти теги для материалов, переведенных на другие языки.

Выдача результатов

Когда пользователь вводит поисковый запрос, наша система находит в индексе подходящие страницы и показывает наиболее релевантные результаты. Релевантность определяется сотнями различных факторов, и мы постоянно работаем над улучшением алгоритма ее определения. При ранжировании результатов Google учитывает удобство просмотра, поэтому убедитесь, что ваш сайт быстро загружается и оптимизирован для мобильных устройств.

Как повысить эффективность ранжирования

  • Если ваш сайт предназначен для пользователей из определенных регионов или носителей определенных языков, сообщите об этом Google.
  • Обеспечьте быструю загрузку своего сайта и оптимизируйте его для мобильных устройств.
  • Следуйте рекомендациям для веб-мастеров, чтобы избежать распространенных ошибок и улучшить рейтинг своего сайта.
  • Попробуйте использовать структурированные данные для формирования расширенных результатов, например карточек с рецептом или статьей.
  • Внедрите технологию AMP для ускорения загрузки страниц на мобильных устройствах. Для некоторых AMP-страниц также доступны дополнительные функции, такие как карусель "Главные новости".
  • Поскольку алгоритм Google постоянно улучшается, не стоит пытаться разгадать его и соответствующим образом изменить свой сайт. Вместо этого создавайте хороший оригинальный контент, который понравится пользователям, и следуйте при этом нашим рекомендациям.

Для самых любознательных

Вы можете изучить ещё более подробные материалы, посвященные принципам работы Google Поиска (с иллюстрациями и видео).

Эта информация оказалась полезной?
Как можно улучшить эту статью?