如何通过 noindex 阻止网页被搜索引擎编入索引?

简介: 在一些网站中,通过`robots.txt`可以控制哪些站点资源或目录能被搜索引擎索引,但是随着站点页面增加,之前允许的索引页面常常不希望被索引,如果直接修改 `robots.txt`,影响会比较大,所以页面级的控制就很有必要。

在一些网站中,通过robots.txt可以控制哪些站点资源或目录能被搜索引擎索引,但是随着站点页面增加,之前允许的索引页面常常不希望被索引,如果直接修改 robots.txt,影响会比较大,所以页面级的控制就很有必要。

前一篇有提到通过在站点根目录 robots.txt 文件中添加 Disallow 指令来阻止整站级别的某些资源被搜索引擎索引或不被索引,一文搞懂SEO优化之站点robots.txt。为了精细化控制被索引的页面,有时也需要通过noindex处理。

为让 noindex 生效,网页或资源需要不被 robots.txt 文件的规则屏蔽,并且必须能被访问。如果被 robots.txt 文件屏蔽或无法访问该网页,那么爬虫就永远看不到 noindex 规则,所以该网页可能仍会显示在搜索结果中,例如有其他网页链接到该网页。

有两种方式配置 noindex :一是作为 <meta> 标记,二是作为 HTTP 响应标头。这两种方法的效果相同,根据网站实际情况选择合适的方法即可。

1 Meta Robots 标签(控制单页索引行为)

在HTML的<head>中添加,精准控制单个页面是否被索引或跟踪链接。

支持的指令

指令 说明
all 无限制,为默认值
noindex 不在搜索结果中显示此网页、媒体或资源
nofollow 不追踪该网页上的链接
none 等同于 noindex, nofollow
nosnippet 不在搜索结果中显示该网页的摘要或视频预览
indexifembedded 如果网页通过 iframes 嵌入到其他网页,该网页内容也会被编入索引
max-snippet: [number] 最多只能使用 [number] 个字符作为搜索结果的文字摘要。为0时,不显示摘要。等同于 nosnippet;为-1时,不限制
max-image-preview: [setting] 设置网页的图片预览在搜索结果中的尺寸上限。为none时,不显示图片预览;为standard时,可能会显示默认图片预览;为large时,可能显示较大图片预览
max-video-preview: [number] 设置网页的视频预览在搜索结果中的最长秒数。为0时最多显示静态图;为-1时无显示;
notranslate 不在搜索结果中提供该网页的译文
noimageindex 不将该网页上的图片编入索引
unavailable_after: [date/time] 在指定日期/时间过后,不在搜索结果中显示该网页

HTML示例

<!-- 禁止所有爬虫 -->
<meta name="robots" content="noindex, nofollow">
<!-- 仅禁止Google -->
<meta name="googlebot" content="noindex">

<!-- 阻止在搜索结果中显示摘要 -->
<meta name="robots" content="max-snippet:0">
<!-- 摘要最多显示20个字符 -->
<meta name="robots" content="max-snippet:20">
<!-- 不限制 -->
<meta name="robots" content="max-snippet:-1">

<!-- 不显示预览图 -->
<meta name="robots" content="max-image-preview:standard">

<!-- 2025-08-01之后不在结果中显示该网页 -->
<meta name="robots" content="unavailable_after: 2025-08-01">

🌐 2 HTTP 头:X-Robots-Tag (服务器级控制)

通过服务器配置HTTP响应头X-Robots-Tag,其值为 noindexnone动态控制索引行为 可用于非HTML文件(如PDF、视频文件或图片等)。

HTTP/1.1 200 OK
(...)
X-Robots-Tag: noindex, nofollow
(...)

或指定爬虫引擎

HTTP/1.1 200 OK
(...)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(...)

服务端配置示例

以nginx配置为例,比如希望所有pdf文件禁止被索引:

location ~* \.pdf$ {
   
  add_header X-Robots-Tag "noindex, nofollow";
}

✅ 优势:无需修改页面代码,适合批量管理或程序化生成的内容。

💎 根据场景选择方案

需求场景 推荐方案
整站/目录禁止抓取 robots.txt
精准控制单页索引/链接跟踪 Meta Robots 标签
动态文件或服务器级批量控制 X-Robots-Tag HTTP 头

实际业务中,建议同时使用 robots.txt + noindex 组合。

原文地址:如何通过 noindex 阻止网页被搜索引擎编入索引?

相关文章
|
10月前
|
移动开发 前端开发 JavaScript
React 图片裁剪组件 Image Cropper
本文介绍了在React中实现图片裁剪功能的方法,涵盖基础知识、常见问题及解决方案。首先,通过第三方库如`react-image-crop`或`cropperjs-react`可轻松实现图片裁剪。接着,针对性能和兼容性问题,提供了优化图片加载、处理裁剪区域响应慢、解决浏览器差异等方案。最后,通过代码案例详细解释了如何创建一个基本的图片裁剪组件,并提出了优化建议,如使用`React.memo`、添加样式支持及处理大图片预览,帮助开发者避免常见错误并提升用户体验。
707 67
|
9月前
|
人工智能 算法 搜索推荐
单纯接入第三方模型就无需算法备案了么?
随着人工智能的发展,企业接入第三方模型提升业务能力的现象日益普遍,但算法备案问题引发诸多讨论。根据相关法规,无论使用自研或第三方模型,只要涉及向中国境内公众提供算法推荐服务,企业均需履行备案义务。这不仅因为服务性质未变,风险依然存在,也符合监管要求。备案内容涵盖模型基本信息、算法优化目标等,且需动态管理。未备案可能面临法律和运营风险。建议企业提前规划、合规管理和积极沟通,确保合法合规运营。
|
应用服务中间件 Linux nginx
nginx + geoip2简明配置
有时候需要nginx结合IP地址库做一些事情,比如过滤掉某个国家的IP,该如何做呢?
|
前端开发 JavaScript API
前端框架对比和选择
前端框架对比和选择
|
搜索推荐 SEO
什么是已备案域名?已备案域名有什么作用?
【10月更文挑战第10天】什么是已备案域名?已备案域名有什么作用?
1266 2
|
Rust API 开发工具
Rust初学者,边学边写的OSS的sdk,欢迎批评指正 :)
`Rust`语言编写的阿里云OSS的SDK,依据官方文档并参考了其他语言的实现。
910 5
Rust初学者,边学边写的OSS的sdk,欢迎批评指正 :)
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
676 1
|
Python
干货文:在 Mac 中卸载 Python 的方式
干货文:在 Mac 中卸载 Python 的方式
3074 1
|
前端开发 Java Maven
springboot优雅的实现excel的导出(自适应列宽实现,中文也行),复制可用
springboot优雅的实现excel的导出(自适应列宽实现,中文也行),复制可用
861 0
|
前端开发 UED 开发者
【第19期】一文用Tailwind CSS写自己的网站
【第19期】一文用Tailwind CSS写自己的网站
471 0