禁止搜索引擎收录的方法

简介:
什么是robots.txt文件? 
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。 
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。



robots.txt文件放在哪里? 
robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在 http://www.abc.com/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
网站 URL 相应的 robots.txt的 URL 
http://www.w3.org/  http://www.w3.org/robots.txt 
http://www.w3.org:80/  http://www.w3.org:80/robots.txt 
http://www.w3.org:1234/  http://www.w3.org:1234/robots.txt 
http://w3.org/   http://w3.org/robots.txt 



robots.txt文件的格式 
"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:
该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。


robots.txt文件用法举例 例1. 禁止所有搜索引擎访问网站的任何部分 
下载该robots.txt文件 User-agent: * 
Disallow: / 
例2. 允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt" file) User-agent: *
Disallow:  
例3. 禁止某个搜索引擎的访问 U
分类:  SEO

本文转自快乐就好博客园博客,原文链接:http://www.cnblogs.com/happyday56/archive/2007/11/01/946301.html,如需转载请自行联系原作者
相关文章
|
Linux 网络安全 开发工具
CentOS openssh 升级教程
低版本和centos系统默认安装的openssh版本经常会有高风险漏洞,因此openssh需要保持升级到最新版本。
2492 0
|
1月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
664 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
3月前
|
存储 数据可视化 搜索推荐
数据可视化实战:如何采集并分析马蜂窝上的热门旅游信息?
通过自动化工具抓取马蜂窝旅游数据,分析杭州热门景点与用户关注焦点,生成排行榜和词云图。项目采用低成本方案,结合Playwright模拟浏览器行为采集信息,并用Python处理数据、绘制图表。结果显示西湖、灵隐寺等为热门景点,游客多关注门票、交通等问题。此方法简单高效,适合个性化旅行攻略分析。
200 8
数据可视化实战:如何采集并分析马蜂窝上的热门旅游信息?
|
9月前
|
Ubuntu Linux 数据安全/隐私保护
Ubuntu20.04下修改samba用户密码
在 Ubuntu 20.04 上,修改 Samba 用户密码是一个简单而常见的管理任务。通过正确安装和配置 Samba,并使用 `smbpasswd` 命令,可以方便地管理 Samba 用户及其密码。本文提供了详细的步骤和示例,帮助您顺利完成这些操作。希望这些信息对您有所帮助。
507 16
|
7月前
|
人工智能 算法 物联网
AI大模型爆火背后,C++ 如何助力 AI 开发大显身手?
AI大模型爆火背后,C++ 如何助力 AI 开发大显身手?
|
7月前
|
缓存 Linux UED
Yum与Dnf软件包管理器使用指南
Yum是RedHat、CentOS等Linux发行版中广泛使用的软件包管理器,它为用户提供了便捷的软件包安装、更新、管理等功能。然而,随着技术的发展,Red Hat已经开始将其软件包管理逐渐转移到dnf上。Dnf是yum的增强版,不仅继承了yum的核心功能,还在性能、用户体验等方面进行了诸多优化。在使用上,dnf与yum非常相似,两者在命令层面基本相同,只是名字有所区别。本文将详细介绍yum和dnf的常用命令及其使用方法,帮助用户更好地管理和维护系统中的软件包。
358 3
|
人工智能 自然语言处理 OLAP
AnalyticDB向量检索助力钉钉AI助理
2024年1月9日钉钉发布人人可用的AI助理产品,用户点击钉钉首屏右上角的魔法棒,即可唤起AI助理进行对话式数据AI、信息摘要、写工作总结、写文档等工作。AnalyticDB for PostgreSQL (下文简称ADB-PG) 向量检索引擎提供了核心实体的向量召回,帮助AI助理在智能问数等场景中大幅提升模型输出准确性。
1163 6
|
SQL 监控 druid
深入了解Druid连接池:高性能数据库连接管理工具
在现代的应用开发中,数据库连接池是优化数据库访问性能的关键。Druid连接池作为一款高性能的数据库连接管理工具,为我们提供了强大的连接池功能和监控能力。本文将深入探讨Druid连接池的基本概念、特点,以及如何在实际应用中使用它进行高效的数据库连接管理。
1525 0
互斥锁的死锁
互斥锁的死锁
321 1
互斥锁的死锁

热门文章

最新文章