浅谈Google蜘蛛抓取的工作原理(01)

简介: 浅谈Google蜘蛛抓取的工作原理

首先,Google 蜘蛛寻找新的页面。然后,Google 对这些页面进行索引,以了解它们的内容,并根据检索到的数据对它们进行排名。爬行和索引是两个不同的过程,但是,它们都由爬行器执行。


什么是爬行器?


爬行器(也称搜索机器人,蜘蛛)是谷歌和其他搜索引擎用来扫描网页的软件。简单地说,它"爬"网页从一页到另一页,寻找谷歌还没有在其数据库新增或修改的内容。


任何搜索引擎都有自己的爬行器。至于谷歌,有超过15种不同类型的爬行器,谷歌的主要爬行器被称为Googlebot。Googlebot同时执行爬行和索引,下面我们将仔细看看它是如何工作的。


爬行器如何工作?


这里没有URL的中央注册表,每当创建新页面时都会更新。这意味着谷歌不会自动"提醒"他们,但必须在网上找到它们。Googlebot 不断在互联网上徘徊,搜索新页面,并将它们添加到谷歌现有页面的数据库中。




一旦 Googlebot 发现新页面,它将在浏览器中呈现(可视化)页面,加载所有 HTML、第三方代码、JavaScript 和 CSS。此信息存储在搜索引擎的数据库中,然后用于索引和对页面进行排名。如果一个页面已被索引,它被添加到谷歌索引—— 一个超级巨大的谷歌数据库。


image.png


爬行器如何查看页面?


爬行器在最新版本的Google浏览器中呈现一个页面。在完美的场景中,爬行者会以您设计和组装页面的方式"展示"页面。在真实的情况下,事情可能会更加复杂。


移动和桌面渲染


Googlebot可以"看到"你的页面与两个子类型的爬行者:桌面Googlebot和智能手机Googlebot。需要此部门为桌面和移动 SERP 索引页面。


几年前,谷歌使用桌面爬行器访问并渲染了大部分页面。但随着移动第一概念的引入,情况发生了变化。谷歌认为,世界变得足够对移动友好,并开始使用智能手机Googlebot来抓取、索引和排名移动和桌面SERP网站的移动版本。


尽管如此,实施移动先发制人索引结果却比预期的要困难。互联网是巨大的,大多数网站似乎对移动设备的优化不佳。这使得谷歌使用移动第一的概念来爬行和索引新网站和那些老网站,成为完全优化的移动。如果一个网站不方便移动,它是由桌面Googlebot第一手抓取和渲染。


即使您的网站已转换为移动先索引,您仍将有一些页面由 Googlebot 桌面抓取,因为 Google 希望检查您的网站在桌面上的表现。谷歌没有直接说,如果与手机版本有很大不同,它将为您的桌面版本提供索引。不过,假设这一点是合乎逻辑的,因为谷歌的主要目标是为用户提供最有用的信息。谷歌几乎不想盲目地遵循移动第一的概念来失去这些信息。


注意:在任何情况下,您的网站将被移动Googlebot和桌面Googlebot访问。因此,重要的是要照顾你的网站的两个版本,并考虑使用响应式布局,如果你还没有这样做。


如何知道谷歌是否以移动第一的概念抓取和索引您的网站?您将在谷歌搜索控制台收到特别通知。

image.png


HTML 和 JavaScript 渲染


Googlebot 在处理和渲染笨重代码方面可能会遇到一些问题。如果您的页面代码混乱,爬网程序可能无法正确呈现它并考虑您的页面为空。


至于JavaScript渲染,你应该记住,JavaScript是一种快速发展的语言,Googlebot 有时可能无法支持最新的版本。确保您的JS与Googlebot 兼容,否则您的页面可能会呈现错误。


注意您的JS加载时间。如果脚本加载需要超过 5 秒,Googlebot 将不会渲染和索引该脚本生成的内容。


注意:如果你的网站充满了大量的JS元素,并且你不能没有它们,谷歌建议 server-side rendering(服务器侧渲染)。这将使您的网站加载速度更快,并防止 JavaScript 错误。

要查看页面上的哪些资源会导致渲染问题(并实际查看您是否有任何问题),请登录 Google Search Console帐户,转到URL 检查,输入要检查的 URL,单击测试实时 URL按钮,然后单击"View Tested Page"。


image.png


然后转到"More Info"部分,单击页面资源和JavaScript 控制台消息文件夹,查看 Googlebot 未能呈现的资源列表。


image.png


现在,您可以向网站管理员显示问题列表,并要求他们调查和修复错误。


什么影响爬行者的行为?


Googlebot 的行为并不混乱——它是由复杂的算法决定的,这些算法可以帮助爬行者浏览网络并设定信息处理规则。


然而,算法的行为不是你什么也做不了,希望得到最好的结果。让我们仔细看看什么影响爬行者的行为,以及如何优化页面的爬行。


内部链接和反向链接


如果Google已经知道您的网站,则Googlebot会不时检查您的主页上是否有更新。 因此,将指向新页面的链接放置在网站的权威页面上至关重要。 理想情况下,在首页上。


您可以用一个块来丰富您的主页,该块将具有最新的新闻或博客文章,即使你有单独的新闻页面和博客。这将使Googlebot找到你的新页面更快。这个建议可能看起来相当明显,尽管如此,许多网站所有者仍然忽视它,这导致了糟糕的索引和低仓位。


在爬行方面,反向链接的工作相同。所以,如果你添加了一个新的页面,不要忘记外部促销。您可以尝试客人发帖、发起广告活动或尝试任何其他方式,让 Googlebot 查看新页面的 URL。


注意:链接应该遵循,让Googlebot 跟随他们。虽然谷歌最近表示,没有跟随链接也可以用作爬行和索引的提示,我们仍然建议使用dofollow。只是为了确保爬行者确实看到页面。

单击深度


单击深度显示页面离主页有多远。理想情况下,网站的任何页面应在 3 次点击内到达。更大的点击深度会减慢爬行速度,并且几乎不会使用户体验受益。


您可以使用Web 网站审核员检查您的网站是否与点击深度有关。启动该工具,然后转到站点结构>页面,并注意点击深度列。

image.png


如果您看到某些重要页面离主页太远,请重新考虑网站结构的安排。良好的结构应该是简单和可扩展的,所以你可以添加尽可能多的新页面,你需要没有负面影响的简单性。


image.png



目录
相关文章
|
5月前
|
存储 算法 分布式数据库
Google云计算原理与应用(二)
Google云计算原理与应用(二)
116 4
|
5月前
|
存储 分布式计算 算法
Google云计算原理与应用(四)
Google云计算原理与应用(四)
138 3
|
5月前
|
存储 监控 关系型数据库
Google云计算原理与应用(三)
Google云计算原理与应用(三)
136 3
|
2月前
|
机器学习/深度学习 数据采集 物联网
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
93 0
|
5月前
|
存储 分布式计算 负载均衡
Google云计算原理与应用(一)
Google云计算原理与应用(一)
156 3
|
5月前
|
机器学习/深度学习 存储 人工智能
极智AI | 一文看懂Google TPU脉动阵列加速卷积计算原理
本教程详细解释了 Google TPU 脉动阵列加速卷积计算原理。
590 0
|
数据采集 JavaScript 搜索推荐
对于Python抓取Google搜索结果的一些了解
对于Python抓取Google搜索结果的一些了解
|
Android开发 数据安全/隐私保护 开发者
【Android 应用开发】Google 官方 EasyPermissions 权限申请库 ( 完整代码示例 | 申请权限 | 申请权限原理对话框 | 引导用户手动设置权限对话框 )(一)
【Android 应用开发】Google 官方 EasyPermissions 权限申请库 ( 完整代码示例 | 申请权限 | 申请权限原理对话框 | 引导用户手动设置权限对话框 )(一)
438 0
【Android 应用开发】Google 官方 EasyPermissions 权限申请库 ( 完整代码示例 | 申请权限 | 申请权限原理对话框 | 引导用户手动设置权限对话框 )(一)
|
数据采集 缓存 搜索推荐
谷歌蜘蛛池怎么搭建?Google蜘蛛池可以帮助谷歌排名吗?
因为谷歌蜘蛛池的原理就是主动让谷歌蜘蛛爬取你指定的页面,爬取就是最终结果了。
388 0
谷歌蜘蛛池怎么搭建?Google蜘蛛池可以帮助谷歌排名吗?