[翻译]robots.txt 指南--介绍

简介:

有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引 擎爬虫和机器人。每天,上百个这样的爬虫会出来对网站进行快速的搜索。不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的email地址,通常它们这样的寻找是漫无目的的。作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的。 
创建robots.txt文件

好,现在我们开始行动。创建一个叫robots.txt的文本文件,请确保它的文件名是 正确的。该文件必须上传到在您的网站的根目录下,而不是二级目录下(例如,应该是http://www.mysite.com,而不是http: //www.mysite.com/stuff),只有满足以上两点,即文件名正确和路径正确,搜索引擎才会根据该文件中的规则工作,否则robots.txt仅仅只是个常规文件而已,没有任何作用。 
现在,你已经知道如果这个文件该如何命名,以及应该把它上传在何处,接下来你会学习在这个文件中键入命令,搜索引擎会遵循一个叫做“机器人排除协议”(Robots Exclusion Protocol)的协议。其实,它的格式很简单,并且能够满足大多数的控制需要。首先是一行USERAGENT用来识别爬虫类型,紧跟着的是一行或者多行DISALLOW,这些行是用来限制爬虫访问网站的一些部分的。 
1) robots.txt基本设置

User-agent: * 
Disallow: /

根据以上的声明,所有的爬虫(这里用*表示出来)均不允许对您的网站的任何部分进行索引,这里的/表示所有页面。通常情况下这不是我们需要的,但这里仅仅是让大家有个概念而已。 
2) 现在让我们做一些小小的改动。尽管每个站长都喜欢Google,但是你可能不希望Google的镜像机器人挖掘你的网站,也不希望它把你的网站的镜像放在网上,实现在线搜索,如果仅仅是为了节省你的网站所在的服务器的带宽,下面的声明可以做到这一点

User-agent: Googlebot-Image 
Disallow: /

3) 以下代码不允许任何一个搜索引擎和机器人挖掘目录和页面信息

User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /privatedir/ 
Disallow: /tutorials/blank.htm

4) 你还可以对多个机器人设置不同的目标,看看下面的代码

User-agent: * 
Disallow: / 
User-agent: Googlebot 
Disallow: /cgi-bin/ 
Disallow: /privatedir/

这个设置很有趣,这里我们禁止了所有的搜索引擎对于我们的网站的挖掘操作,除了google,在这里Google被允许访问除了/cgi-bin/和/privatedir/以外的所有站点。这里说明,规则是可以定制的,但不是继承而来的。 
5) 有另外一种使用Disallow的方法:即允许访问网站所有内容,其实只要冒号后不输入任何东西就可以了

User-agent: * 
Disallow: / 
User-agent: ia_archiver 
Disallow:

在这里,除了alex以外的所有爬虫都不允许搜索我们的网站 
6)最后,一些爬虫现在支持Allow规则,最著名的就是Google。正如这个规则的名字所说,"Allow:"允许你精确的控制那些文件或者文件夹是可以 被访问的。然而,这个文件目前还不是robots.txt协议的组成部分,所以我建议只有在必须使用时才使用它,因为一些不够聪明的爬虫可能认为它是错误 的。 
下面的内容来自于Google's的FAQs for webmasters,如果你希望除了Google以外的爬虫都不挖掘你的网站,那么以下的代码是做好的选择

User-agent: * 
Disallow: / 
User-agent: Googlebot 
Allow: /










本文转自 瞿杰 51CTO博客,原文链接:http://blog.51cto.com/tonyqus/1138619,如需转载请自行联系原作者
目录
相关文章
|
3月前
|
XML C# 数据格式
C# 生成sitemap.txt文件
C# 生成sitemap.txt文件
20 0
robots.txt文件示例
robots.txt文件示例
76 0
|
前端开发 搜索推荐 PHP
robots是什么?robots.txt怎么写?效果才好呢
一、啥是robots.txt? robots是网页和应用软件备忘录的纯文本公文,当两个应用软件青蛙来到访停靠站的时侯,首先两栖类复查根产品目录是否普遍存在这个公文。除非普遍存在假如,那么就会根据公文的以下内容来确定到访范围,除非没更有甚者话青蛙就会沿镜像进行截取,robots置于项目的根产品目录下。 robots是啥?robots.txt怎么写? BLOG瞳子 BLOG.tongziol.net
146 0
robots是什么?robots.txt怎么写?效果才好呢
ReadMe2.txt 文件内容拷贝 到 新的ReadMe.txt 分析 : 拷贝: 从ReadMe2.txt读取 写入到ReadMe.txt 1.创建两个文
ReadMe2.txt 文件内容拷贝 到 新的ReadMe.txt 分析 : 拷贝: 从ReadMe2.txt读取 写入到ReadMe.txt 1.创建两个文
|
缓存 搜索推荐 前端开发
Robots.txt协议文件你了解多少,最详细的Robots.txt协议解读
Robots.txt协议文件你了解多少,最详细的Robots.txt协议解读在这,很多站长即使知道robots协议是干什么,但对于其深入的机制并没有了解,因此这里有必要说明一下。
Robots.txt协议文件你了解多少,最详细的Robots.txt协议解读
|
搜索推荐 机器人
robots.txt概念和10条注意事项
robots.txt概念 如果我们网站内有某些特殊的文件不让搜索引擎收录,那怎么办? 答案是:使用一个叫做robots.txt的文件。 robots.txt文件告诉搜索引擎本网站哪些文件是允许搜索引擎蜘蛛抓取,哪些不允许抓取。 搜索引擎蜘蛛访问网站任何文件之前,需先访问robots.txt文件,然后抓取robots.txt文件允许的路径,跳过其禁止的路径。
229 0
|
应用服务中间件 定位技术 PHP
zblog robots.txt的正确写法,php版本
zblog robots.txt的正确写法,php版本
351 0
zblog robots.txt的正确写法,php版本
|
搜索推荐 索引 定位技术
搜索引擎篇:网站根目录 “robots.txt” 文件写法
robots.txt写法。添加sitemap链接。 搜索引擎会优先读取sitemap.xml文件,如果没有就逐个抓取URL。
1663 0
|
搜索推荐 机器人
|
Web App开发 前端开发 Python