浅谈Google蜘蛛抓取的工作原理(01)-阿里云开发者社区

浅谈Google蜘蛛抓取的工作原理(01)

2021-11-24 734

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 浅谈Google蜘蛛抓取的工作原理

首先，Google 蜘蛛寻找新的页面。然后，Google 对这些页面进行索引，以了解它们的内容，并根据检索到的数据对它们进行排名。爬行和索引是两个不同的过程，但是，它们都由爬行器执行。

什么是爬行器？

爬行器（也称搜索机器人，蜘蛛）是谷歌和其他搜索引擎用来扫描网页的软件。简单地说，它"爬"网页从一页到另一页，寻找谷歌还没有在其数据库新增或修改的内容。

任何搜索引擎都有自己的爬行器。至于谷歌，有超过15种不同类型的爬行器，谷歌的主要爬行器被称为Googlebot。Googlebot同时执行爬行和索引，下面我们将仔细看看它是如何工作的。

爬行器如何工作？

这里没有URL的中央注册表，每当创建新页面时都会更新。这意味着谷歌不会自动"提醒"他们，但必须在网上找到它们。Googlebot 不断在互联网上徘徊，搜索新页面，并将它们添加到谷歌现有页面的数据库中。

一旦 Googlebot 发现新页面，它将在浏览器中呈现（可视化）页面，加载所有 HTML、第三方代码、JavaScript 和 CSS。此信息存储在搜索引擎的数据库中，然后用于索引和对页面进行排名。如果一个页面已被索引，它被添加到谷歌索引—— 一个超级巨大的谷歌数据库。

爬行器如何查看页面？

爬行器在最新版本的Google浏览器中呈现一个页面。在完美的场景中，爬行者会以您设计和组装页面的方式"展示"页面。在真实的情况下，事情可能会更加复杂。

移动和桌面渲染

Googlebot可以"看到"你的页面与两个子类型的爬行者：桌面Googlebot和智能手机Googlebot。需要此部门为桌面和移动 SERP 索引页面。

几年前，谷歌使用桌面爬行器访问并渲染了大部分页面。但随着移动第一概念的引入，情况发生了变化。谷歌认为，世界变得足够对移动友好，并开始使用智能手机Googlebot来抓取、索引和排名移动和桌面SERP网站的移动版本。

尽管如此，实施移动先发制人索引结果却比预期的要困难。互联网是巨大的，大多数网站似乎对移动设备的优化不佳。这使得谷歌使用移动第一的概念来爬行和索引新网站和那些老网站，成为完全优化的移动。如果一个网站不方便移动，它是由桌面Googlebot第一手抓取和渲染。

即使您的网站已转换为移动先索引，您仍将有一些页面由 Googlebot 桌面抓取，因为 Google 希望检查您的网站在桌面上的表现。谷歌没有直接说，如果与手机版本有很大不同，它将为您的桌面版本提供索引。不过，假设这一点是合乎逻辑的，因为谷歌的主要目标是为用户提供最有用的信息。谷歌几乎不想盲目地遵循移动第一的概念来失去这些信息。

注意：在任何情况下，您的网站将被移动Googlebot和桌面Googlebot访问。因此，重要的是要照顾你的网站的两个版本，并考虑使用响应式布局，如果你还没有这样做。

如何知道谷歌是否以移动第一的概念抓取和索引您的网站？您将在谷歌搜索控制台收到特别通知。

HTML 和 JavaScript 渲染

Googlebot 在处理和渲染笨重代码方面可能会遇到一些问题。如果您的页面代码混乱，爬网程序可能无法正确呈现它并考虑您的页面为空。

至于JavaScript渲染，你应该记住，JavaScript是一种快速发展的语言，Googlebot 有时可能无法支持最新的版本。确保您的JS与Googlebot 兼容，否则您的页面可能会呈现错误。

注意您的JS加载时间。如果脚本加载需要超过 5 秒，Googlebot 将不会渲染和索引该脚本生成的内容。

注意：如果你的网站充满了大量的JS元素，并且你不能没有它们，谷歌建议 server-side rendering(服务器侧渲染)。这将使您的网站加载速度更快，并防止 JavaScript 错误。

要查看页面上的哪些资源会导致渲染问题（并实际查看您是否有任何问题），请登录 Google Search Console帐户，转到URL 检查，输入要检查的 URL，单击测试实时 URL按钮，然后单击"View Tested Page"。

然后转到"More Info"部分，单击页面资源和JavaScript 控制台消息文件夹，查看 Googlebot 未能呈现的资源列表。

现在，您可以向网站管理员显示问题列表，并要求他们调查和修复错误。

什么影响爬行者的行为？

Googlebot 的行为并不混乱——它是由复杂的算法决定的，这些算法可以帮助爬行者浏览网络并设定信息处理规则。

然而，算法的行为不是你什么也做不了，希望得到最好的结果。让我们仔细看看什么影响爬行者的行为，以及如何优化页面的爬行。

内部链接和反向链接

如果Google已经知道您的网站，则Googlebot会不时检查您的主页上是否有更新。因此，将指向新页面的链接放置在网站的权威页面上至关重要。理想情况下，在首页上。

您可以用一个块来丰富您的主页，该块将具有最新的新闻或博客文章，即使你有单独的新闻页面和博客。这将使Googlebot找到你的新页面更快。这个建议可能看起来相当明显，尽管如此，许多网站所有者仍然忽视它，这导致了糟糕的索引和低仓位。

在爬行方面，反向链接的工作相同。所以，如果你添加了一个新的页面，不要忘记外部促销。您可以尝试客人发帖、发起广告活动或尝试任何其他方式，让 Googlebot 查看新页面的 URL。

注意：链接应该遵循，让Googlebot 跟随他们。虽然谷歌最近表示，没有跟随链接也可以用作爬行和索引的提示，我们仍然建议使用dofollow。只是为了确保爬行者确实看到页面。

单击深度

单击深度显示页面离主页有多远。理想情况下，网站的任何页面应在 3 次点击内到达。更大的点击深度会减慢爬行速度，并且几乎不会使用户体验受益。

您可以使用Web 网站审核员检查您的网站是否与点击深度有关。启动该工具，然后转到站点结构>页面，并注意点击深度列。

如果您看到某些重要页面离主页太远，请重新考虑网站结构的安排。良好的结构应该是简单和可扩展的，所以你可以添加尽可能多的新页面，你需要没有负面影响的简单性。

浅谈Google蜘蛛抓取的工作原理(01)

什么是爬行器？

爬行器如何工作？

爬行器如何查看页面？

移动和桌面渲染

HTML 和 JavaScript 渲染

什么影响爬行者的行为？

内部链接和反向链接

热门文章

最新文章

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

浅谈Google蜘蛛抓取的工作原理(01)

什么是爬行器？

爬行器如何工作？

爬行器如何查看页面？

移动和桌面渲染

HTML 和 JavaScript 渲染

什么影响爬行者的行为？

内部链接和反向链接

热门文章

最新文章

相关电子书

推荐镜像