开发者社区> wdcp> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

搜索引擎篇:网站根目录 “robots.txt” 文件写法

简介: robots.txt写法。添加sitemap链接。 搜索引擎会优先读取sitemap.xml文件,如果没有就逐个抓取URL。
+关注继续查看

robots.txt声明网站中哪些目录不让搜索引擎收录。
robots.txt写法。添加sitemap链接。
搜索引擎会优先读取sitemap.xml文件,如果没有就逐个抓取URL。

基本语法

User-agent:定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。*号代表全部搜索引擎
Disallow:不允许收录
Allow:允许收录


全站屏蔽所有蜘蛛:

网站改版之前,为了避免蜘蛛抓取错误或临时的链接,可以采用全站屏蔽蜘蛛的操作,在根目录建立robots.txt,添加如下内容:

User-agent:*
Disallow:/

屏蔽某个目录、文件:

案例:屏蔽所有蜘蛛抓取根目录下的inc文件夹及里面的所有内容,根目录下的wap目录下的index.html文件。robots.txt文件添加如下内容:

User-agent:*
Disallow:/inc/
Disallow:/wap/index.html

屏蔽某个目录,但抓取目录下的文件或文件夹
①案例:屏蔽所有蜘蛛抓取根目录下的wap文件夹,但抓取里面后缀名为html的文件

User-agent:*
Disallow:/wap/
Allow:/wap/*.html

注意:上面的写法,wap带“/”代表根目录下的wap目录下的内容。并不会禁止比如根目录下waptest的文件夹及文件夹所有内容。

②案例:禁止抓取根目录下所有前面带“wap”字符的文件夹及文件

User-agent:*
Disallow:/wap
禁止了如:/wap/,/wap/12.html,/waptest/,/wapabc.html。

③案例:保护隐私文件夹或文件
在别让网站的robots成为最大的安全漏洞一文说到,禁止搜索引擎抓取某些私密文件夹的同时,也暴露了网站的目录结构,猜出网站后台管理系统、后台等。
比如:禁止抓取/include,就可以写成如下,当然前提是你的根目录里面没有前面带这些字符的文件夹或文件给蜘蛛抓取。

User-agent:*
Disallow:/inc

屏蔽动态URL
网站有些动态页面可能会和静态页面相同,造成重复收录。
①案例:用robots屏蔽动态URL

User-agent:*
Disallow:/*?*

②案例:仅允许访问“.html”为后缀的URL

User-agent:*
Allow:.html$
Disallow:/

屏蔽死链接
网站改版、删除文章后,原来的URL如果已经被搜索引擎索引,出现404错误。一般的做法如下:
①查看网站日志,找出这些死链,用百度提交死链工具提交,慢慢的会删除这些死链;
②如果这个链接已经更换,也可以用301跳转到新的链接,301跳转后原页面和新页面处理办法;
③robots禁止蜘蛛抓取死链,写法同上,最好带完整路径

User-agent:*
Disallow:http://www.buymashop.com/sitemap.html

屏蔽不参与排名的页面链接
比如会员中心、登陆界面、联系我们等。这些虽然有实际用途,蜘蛛一样会爬取这些页面链接,这些页面也会分权,因此为了集中权重,一些完全不参与排名的页面应该用robots屏蔽。也可以在该页面的之前添加声明,指向该页面的链接加上nofollow标签。

<a rel="nofollow" href="/member/login">登陆</a>

sitemap索引在robots.txt的位置
sitamap索引的位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原则,再按照网站地图爬取。

Sitemap: http://www.buymashop.com/sitemap.xml
Sitemap: http://www.buymashop.com/sitemap.html

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
基于springboot来实现对日志文件内容的监控
基于springboot来实现对日志文件内容的监控
42 0
基于springboot来实现对日志文件内容的监控
基于springboot来实现对日志文件内容的监控
171 0
problem about can&#39;t trigger exit-command in CR
Sent: Wednesday, January 12, 2011 4:29 PM
32 0
Robots.txt 协议详解及使用说明
一、Robots.txt协议 Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
1109 0
2.关于QT中的Dialog(模态窗口),文件选择器,颜色选择器,字体选择器,消息提示窗口
 1 新建一个空项目 A 编写 .pro文件 QT += gui widgets   HEADERS += \     MyDialog.h   SOURCES += \     MyDialog.cpp B 编写MyDialog.h
929 0
obotts.txt 什么是robots.txt?Robots.txt的官方标准写法
引用:http://cn.idao114.com/zhinan/robots-txt-usage 其实它只是一个放在网站根目录内,并且记录了一些些文字的文本文件罢了。 但它是如何在网站的优化中起到作用的呢? 简单的说就是搜寻引擎会根据你的robots.txt的内容去[ 按表操作]。
703 0
QTP中实现对文本文件(txt)的读写操作
      在实际的项目中,很多Data都是保存在外部文件中,因此,我们就需要对外部文件的内容进行读写。常见的是文本文档(.txt),excel,数据库等。 本篇先介绍下对文本文档的读取。
697 0
+关注
wdcp
收集常用的 亲测的文章
1
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载