Google 搜索的工作方式

了解 Google 如何发现和抓取网页并将其作为结果呈现

Google 的工作方式是什么?下文将依次提供简要版和详尽版的回答。

Google 会从很多不同的来源获取信息,包括:

  • 网页;
  • 用户提交的内容,例如“Google 我的商家”和地图用户提交的内容;
  • 图书扫描;
  • 互联网上的公共数据库;
  • 以及许多其他来源。

但是,此页面内容将重点介绍 Google 如何通过网页获取信息。

简要版

Google 按照以下三个基本步骤来生成基于网页的结果:

抓取

第一步是找出网络上存在哪些网页。由于没有所有网页的中央注册表,因此 Google 必须不断搜索新网页并将其添加到已知网页列表中。此发现过程称为“抓取”。

由于 Google 之前已经抓取某些网页,因此这些网页是 Google 已知的网页。当跟踪已知网页上指向新网页的链接时,Google 会发现其他网页。当网站所有者以列表形式提交一系列网页(站点地图)供 Google 抓取时,Google 也会发现其他网页。如果您使用受管的网站托管服务,如 Wix 或 Blogger,则这些服务可能会告知 Google 抓取您更新后的网页或添加的新网页。

要改善对您网站的抓取效果,请注意以下事项:

  • 如果您对单个网页进行更改,您可以向 Google 提交具体网址
  • 将您的网页链接到 Google 已知的其他网页。但是,请务必注意,Google 不会跟踪广告中的链接、其他网站中由您付费的链接、评论中的链接或其他未遵循 Google 网站站长指南的链接。
  • 如果您想让 Google 只抓取 1 个网页,请将此网页设为您的首页 在 Google 看来,您的首页就是您网站上最重要的网页。为促成完整网站抓取,请确保您的首页(以及所有网页)都包含一个良好的网站导航系统,能链接到您网站上所有重要版块和网页。这会有助于用户(和 Google)在您的网站上找到所需内容。

 

Google 不会通过收取费用来提高网站抓取频率或网站排名。任何关于 Google 会通过收取费用来提高网站抓取频率的消息均是自子虚乌有。

编入索引

发现网页后,Google 会尝试了解该网页的内容。此过程称为“编入索引”。Google 会分析该网页的内容、网页上嵌入的目录图片和视频文件,或通过其他方式尝试了解网页。这些信息存储在 Google 索引中,而Google 索引是一个存储在很多很多计算机中的巨大的数据库。

要改善将您的网页编入索引的效果,请注意以下事项:

  • 制作简短且有意义的网页标题。
  • 使用传达网页主题的网页标题。
  • 使用文字(而非图片)传达内容。(尽管 Google 能够理解一些图片和视频,但相比图片和视频,文字更易于理解。如果需要使用视频图片,您至少应酌情使用替代文本和其他属性加以注释。)

呈现(和排名)

当用户输入查询时,Google 会根据许多因素尝试从其索引中找到最相关的答案。Google 会努力确定最优质的答案,并会考虑其他因素(例如,考虑用户所在位置、使用的语言及设备(桌面设备或手机)等因素),以便提供最佳用户体验和最恰当的答案。例如,在用户搜索“自行车维修店”后,Google 向巴黎用户显示的答案与向香港用户显示的答案有所不同。Google 不会通过收取费用来提高网页排名,网页排名是以编程方式完成的。

要改善您的网页呈现和排名效果,请注意以下事项:

详尽版

想要了解更多信息?下文是:

详尽版

 

抓取

抓取是指 Googlebot 找出要添加到 Google 索引中的新网页和更新过的网页的过程。

我们使用大量计算机来提取(或“抓取”)网络上的海量网页。执行抓取任务的程序叫做 Googlebot(也被称为漫游器或“蜘蛛”程序)。Googlebot 使用算法来进行抓取:计算机程序会确定要抓取的网站、抓取频率以及从每个网站中抓取的网页数量。

Google 首先会以一份网页网址列表开始其抓取过程,该列表是在之前进行的抓取过程中形成的,且随着网站站长所提供的站点地图数据的增多而不断扩大。Googlebot 在访问每个网站时,会检测每个网页上的链接,并将这些链接添加到它要抓取的网页列表中。它会记录新建立的网站、对现有网站进行的更改以及无效链接,并据此更新 Google 索引。

Google 如何查找网页?

Google 使用多种技术来查找网页,包括:

  • 跟踪其他网站或网页中的链接
  • 读取站点地图

Google 如何得知哪些网页无法抓取?

  • robots.txt 中屏蔽的网页无法抓取,但如果这些网页链接到其他网页,系统仍可能会将其编入索引。(Google 可以通过指向相应网页的链接来推断页面内容,并且在不解析其内容的情况下将相应网页编入索引。)
  • Google 无法抓取任何匿名用户无法访问的网页。因此,任何登录或其他授权防护措施都将阻止 Google 抓取网页。
  • Google 不会频繁地抓取那些先前已被抓取且被视为重复网页(与其他网页重复)的网页。

改善抓取质量

利用以下这些技术帮助 Google 发现您网站上正确的网页:

编入索引

Googlebot 会处理所抓取的每个网页,将其找到的所有字词和这些字词在每个网页上的位置汇编成一个包含海量内容的索引。此外,我们还会处理关键内容标记和属性中的信息,例如 <title> 标记或和 Alt 属性。Googlebot 可处理多种类型的内容,但并不是所有类型的内容都能处理。例如,我们无法处理某些富媒体文件的内容。

在抓取和编入索引的间隙,Google 会确定相应网页是否是另一网页的重复或规范网页。如果该网页被视为重复网页,Google 便不会频繁地抓取它。

请注意,Google 不会将包含 noindex 指令(标头或标记)的网页编入索引。但前提是 Google 必须能够看到该指令;如果相应网页被 robots.txt 文件、登录页或其他设备屏蔽了,那么即使 Google 并未访问该网页,也可能会将其编入索引!

改善编入索引的效果

有多种技巧可增强 Google 对您的网页内容的理解能力,具体如下所示:

  • 使用 noindex 阻止 Google 抓取或找到您要隐藏的网页。请勿对 robots.txt 屏蔽的网页添加“noindex”;如果您这样做,Google 将看不见“noindex”指令并且仍会将该网页编入索引。
  • 使用结构化数据
  • 遵循 Google 网站站长指南
  • 查看 SEO 指南,以了解更多提示。

呈现结果

用户输入查询时,我们的机器会搜索索引查找匹配网页,并返回我们认为与用户搜索最相关的结果。相关性是由 200 多个因素决定的,我们一直致力于改进我们的算法。Google 在选择结果和对其进行排名时会考虑用户体验,因此请务必确保您的网页能快速加载适合移动设备

改善结果呈现

  • 如果您的结果针对的是特定地点或使用特定语言的用户,则可以告知 Google 您的偏好
  • 确保您的网页能快速加载适合移动设备
  • 遵循网站站长指南,避免常见的潜在问题并提高网站排名。
  • 考虑为您的网站实施搜索结果功能,例如食谱卡片或文章卡片。
  • 实施 AMP,以加快网页在移动设备上的加载速度。某些 AMP 网页也可以使用其他搜索功能,例如“焦点新闻”轮换展示。
  • Google 的算法一直在不断改进,您应遵循我们的指南,努力创建符合用户需求的精彩内容,而不应尝试去猜测算法并根据算法来设计网页。

更详尽的版本

点击此处即可找到对 Google 搜索工作方式更详尽的介绍(含有图片和视频!)

该内容对您有帮助吗?
您有什么改进建议?