搜索引擎篇:网站根目录 “robots.txt” 文件写法

简介: robots.txt写法。添加sitemap链接。 搜索引擎会优先读取sitemap.xml文件,如果没有就逐个抓取URL。

robots.txt声明网站中哪些目录不让搜索引擎收录。
robots.txt写法。添加sitemap链接。
搜索引擎会优先读取sitemap.xml文件,如果没有就逐个抓取URL。

基本语法

User-agent:定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。*号代表全部搜索引擎
Disallow:不允许收录
Allow:允许收录


全站屏蔽所有蜘蛛:

网站改版之前,为了避免蜘蛛抓取错误或临时的链接,可以采用全站屏蔽蜘蛛的操作,在根目录建立robots.txt,添加如下内容:

User-agent:*
Disallow:/

屏蔽某个目录、文件:

案例:屏蔽所有蜘蛛抓取根目录下的inc文件夹及里面的所有内容,根目录下的wap目录下的index.html文件。robots.txt文件添加如下内容:

User-agent:*
Disallow:/inc/
Disallow:/wap/index.html

屏蔽某个目录,但抓取目录下的文件或文件夹
①案例:屏蔽所有蜘蛛抓取根目录下的wap文件夹,但抓取里面后缀名为html的文件

User-agent:*
Disallow:/wap/
Allow:/wap/*.html

注意:上面的写法,wap带“/”代表根目录下的wap目录下的内容。并不会禁止比如根目录下waptest的文件夹及文件夹所有内容。

②案例:禁止抓取根目录下所有前面带“wap”字符的文件夹及文件

User-agent:*
Disallow:/wap
禁止了如:/wap/,/wap/12.html,/waptest/,/wapabc.html。

③案例:保护隐私文件夹或文件
在别让网站的robots成为最大的安全漏洞一文说到,禁止搜索引擎抓取某些私密文件夹的同时,也暴露了网站的目录结构,猜出网站后台管理系统、后台等。
比如:禁止抓取/include,就可以写成如下,当然前提是你的根目录里面没有前面带这些字符的文件夹或文件给蜘蛛抓取。

User-agent:*
Disallow:/inc

屏蔽动态URL
网站有些动态页面可能会和静态页面相同,造成重复收录。
①案例:用robots屏蔽动态URL

User-agent:*
Disallow:/*?*

②案例:仅允许访问“.html”为后缀的URL

User-agent:*
Allow:.html$
Disallow:/

屏蔽死链接
网站改版、删除文章后,原来的URL如果已经被搜索引擎索引,出现404错误。一般的做法如下:
①查看网站日志,找出这些死链,用百度提交死链工具提交,慢慢的会删除这些死链;
②如果这个链接已经更换,也可以用301跳转到新的链接,301跳转后原页面和新页面处理办法;
③robots禁止蜘蛛抓取死链,写法同上,最好带完整路径

User-agent:*
Disallow:http://www.buymashop.com/sitemap.html

屏蔽不参与排名的页面链接
比如会员中心、登陆界面、联系我们等。这些虽然有实际用途,蜘蛛一样会爬取这些页面链接,这些页面也会分权,因此为了集中权重,一些完全不参与排名的页面应该用robots屏蔽。也可以在该页面的之前添加声明,指向该页面的链接加上nofollow标签。

<a rel="nofollow" href="/member/login">登陆</a>

sitemap索引在robots.txt的位置
sitamap索引的位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原则,再按照网站地图爬取。

Sitemap: http://www.buymashop.com/sitemap.xml
Sitemap: http://www.buymashop.com/sitemap.html
目录
相关文章
|
5月前
|
编解码
WordPress页面文件添加html后缀名
wordpress 页面默认不能实现伪静态链接,手动在链接中添加 “.html” ,会自动转码为 “-html” ,但万能的 WordPress,你能想到的功能都会有相应的插件帮你实现。
54 0
aspx结尾文件网站的发布过程
aspx结尾文件网站的发布过程
|
7月前
|
XML C# 数据格式
C# 生成sitemap.txt文件
C# 生成sitemap.txt文件
55 0
|
搜索推荐 机器人 定位技术
怎样写Robots文件?
在SEO优化网站结构时,控制网页抓取、索引是常用的技术。常用工具包括: 机器人文件。
178 0
怎样写Robots文件?
robots.txt文件示例
robots.txt文件示例
110 0
|
前端开发 搜索推荐 PHP
robots是什么?robots.txt怎么写?效果才好呢
一、啥是robots.txt? robots是网页和应用软件备忘录的纯文本公文,当两个应用软件青蛙来到访停靠站的时侯,首先两栖类复查根产品目录是否普遍存在这个公文。除非普遍存在假如,那么就会根据公文的以下内容来确定到访范围,除非没更有甚者话青蛙就会沿镜像进行截取,robots置于项目的根产品目录下。 robots是啥?robots.txt怎么写? BLOG瞳子 BLOG.tongziol.net
214 0
robots是什么?robots.txt怎么写?效果才好呢
|
缓存 搜索推荐 前端开发
Robots.txt协议文件你了解多少,最详细的Robots.txt协议解读
Robots.txt协议文件你了解多少,最详细的Robots.txt协议解读在这,很多站长即使知道robots协议是干什么,但对于其深入的机制并没有了解,因此这里有必要说明一下。
Robots.txt协议文件你了解多少,最详细的Robots.txt协议解读
|
搜索推荐 机器人
robots.txt概念和10条注意事项
robots.txt概念 如果我们网站内有某些特殊的文件不让搜索引擎收录,那怎么办? 答案是:使用一个叫做robots.txt的文件。 robots.txt文件告诉搜索引擎本网站哪些文件是允许搜索引擎蜘蛛抓取,哪些不允许抓取。 搜索引擎蜘蛛访问网站任何文件之前,需先访问robots.txt文件,然后抓取robots.txt文件允许的路径,跳过其禁止的路径。
279 0
|
应用服务中间件 定位技术 PHP
zblog robots.txt的正确写法,php版本
zblog robots.txt的正确写法,php版本
406 0
zblog robots.txt的正确写法,php版本
|
数据采集 Web App开发 搜索推荐
爬虫的另一种思路 -- 从 robots.txt 中找到抓取入口
近两年出现曾报道一些关于非法抓取数据的程序员被告上法庭的事例, 而非法抓取的一个典型做法就是不遵守网站的 robots.txt 规则进行爬取. 早年就曾有搜索引擎不遵守淘宝的 robots.txt 还去收录网站的信息被告的案例.
1998 0