Sitemap
网站地图是包含您希望在 Google 中的页面完整列表的文档。您可以通过谷歌搜索控制台(索引>网站地图)向 Google 提交网站地图,以便让 Googlebot 知道要访问和爬行哪些页面。网站地图还告诉谷歌,如果有任何更新在您的网页上。
注意:网站地图并不能保证Googlebot在爬行您的网站时会使用它。爬行者可以忽略您的网站图,并继续以其决定的方式爬行网站。尽管如此,没有人因为有网站图而被惩罚,在大多数情况下,它被证明是有用的。一些 CMS 甚至会自动生成站点图、更新它并将其发送到 Google,使您的 SEO 流程更快、更轻松。如果您的网站是新的或大的(有超过500个网址),请考虑提交网站图。
索引说明
在爬行和索引页面时,Google 会遵循某些说明,例如Robots.txt、Noindex标签、robots元标签和X-Robots标签。
Robots.txt 是一个根目录文件,限制一些页面或内容元素从谷歌。一旦Googlebot发现你的页面,它就会查看Robots.txt文件。如果发现页面被Robots.txt限制爬行,Googlebot 将停止从该页面中爬行和加载任何内容和脚本。此页面不会显示在搜索中。
Noindex标签、robots元标签和X-Robots标签是用于限制爬行者爬行和索引页面的标签。Noindex标签限制所有类型的爬行器对页面进行索引。使用robots元标签来指定如何爬行和索引特定页面。这意味着您可以阻止某些类型的爬行者访问页面,并保持页面对其他页面的开放。X-Robots标签可用作HTTP 标头响应的元素,该响应可能会限制页面索引或浏览页面上的爬行者行为。此标签允许您针对单独类型的爬行机器人(如果指定)。如果没有指定机器人类型,说明将适用于所有类型的爬行者。
注意:Robots.txt文件并不能保证页面被排除在索引之外。Googlebot将此文档视为建议而不是订单。这意味着谷歌可以忽略Robots.txt并索引一个页面进行搜索。如果您想确保页面不会被索引,请使用Noindex标签。
所有页面都可用于爬行吗?
不。某些页面可能无法用于爬行和索引。让我们仔细看看这些类型的页面:
受密码保护的页面。Googlebot 模拟了匿名用户的行为,该用户没有任何凭据访问受保护的页面。因此,如果页面受到密码保护,它不会被爬行,因为 Googlebot 将无法访问它。
索引说明排除的页面。这些页面来自Robots.txt,带有Noindex标签、robots元标签和X-Robots标签。
孤儿页面。孤儿页面是网站中任何其他页面中未链接的页面。Googlebot是一个蜘蛛机器人,这意味着它通过跟踪它找到的所有链接来发现新的页面。如果没有指向页面的链接,则页面将不会被爬行,也不会在搜索中出现。
有些页面被限制故意爬行和索引。这些通常是不打算在搜索中显示的页面:具有个人数据、策略、使用条款、页面测试版本、存档页面、内部搜索结果页面等的页面。
但是,如果您想让您的页面可供爬行并带来流量,请确保您不会保护带有密码、思维链接(内部和外部)的公共页面,并仔细检查索引说明。
要检查 Google 搜索控制台中网站页面的可爬行性,请转到Index >Coverage 报告。注意标记 Error(未索引)和 Valid with warning(索引,但有问题)。
注意:如果您不希望 Googlebot 查找或更新任何页面(一些旧页面,您不再需要的页面),请将其从站点地图中删除,如果您有页面,请设置404 Not Found 状态,或用Noindex标签标记它们。
我的网站何时会出现在搜索中?
很明显,在您建成网站后,您的网页不会立即出现在搜索中。如果你的网站是绝对新的,Googlebot将需要一些时间来找到它在网络上。请记住,在某些情况下,这种"某些"可能需要长达 6 个月的时间。
如果 Google 已经了解了您的网站,并且您进行了一些更新或添加了新页面,那么网站在 Web 上的外观变化速度取决于抓取预算。
抓取预算是Google 在爬行您的网站上花费的资源量。Googlebot 需要的资源越多,搜索速度就越慢。
抓取预算分配取决于以下因素:
网站人气。网站越受欢迎,谷歌在爬行上愿意花费的爬行点就越多。
更新速率。更新页面的频率越高,您的网站获得的爬行资源就越多。
页数。页面越多,爬行预算就越大。
处理爬行的服务器容量。托管服务器必须能够按时响应爬行器的请求。
请注意,爬行预算并非均等地用于每个页面,因为某些页面会消耗更多资源(因为 JavaScript 和 CSS 过重,或者因为 HTML 杂乱无章)。因此,分配的爬行预算可能不足以像您预期的那样快速爬行所有页面。
除了严重的代码问题外,爬行不良和非理性爬行预算支出的一些最常见的原因是重复内容问题和结构不良的 URL。
重复内容问题
重复内容有好几页内容大多相似。这可能发生的原因有很多,例如:
以不同的方式到达页面:有或没有www,通过http或https;
动态网址-当许多不同的URL导致相同的页面:
页面版本的 A/B 测试。
如果不修复,重复的内容问题会导致 Googlebot 多次爬行同一页面,因为它会认为这些都是不同的页面。因此,爬行资源被浪费在徒劳的,Googlebot 可能无法找到其他有意义的网页,您的网站。此外,重复内容会降低页面在搜索中的位置,因为 Google 可能会认为您的网站的整体质量较低。
事实是,在大多数情况下,你不能摆脱大多数的东西,可能会导致重复的内容。但是,您可以通过设置规范的URL来防止任何重复的内容问题。规范标签表示哪个页面应被视为"主",因此指向同一页面的 URL 的其余部分将不会索引,您的内容也不会重复。您还可以在机器人的帮助下限制机器人访问动态网址.txt文件。
网址结构问题
人机算法都对用户友好型 URL表示赞赏。Googlebot也不例外。Googlebot可能会感到困惑,当试图了解长和参数丰富的网址。因此,更多的爬行资源被花费。为了防止这种情况,使您的网址用户友好。
确保您的 URL 清晰,遵循逻辑结构,具有适当的标点符号,并且不包括复杂的参数。换句话说,您的网址应该看起来像这样:
http://example.com/vegetables/cucumbers/pickles
但事实是,如果您是大型(100万以上网页)或中型(10,000以上网页)网站的所有者,且其内容(每天或每周)频繁更改,才需担心这一点。在其余情况下,您只需要正确优化您的网站进行搜索,并按时修复索引问题。
总结
Google的主要爬行者,Googlebot,在复杂的算法下运作,但你仍然可以"导航"它的行为,使其有利于您的网站。此外,大多数爬行过程优化步骤重复了我们都熟悉的标准 SEO 步骤。