2019年最新出搜索引擎蜘蛛网页爬虫大全

简介: 2019年最新出搜索引擎蜘蛛网页爬虫大全分享,各大seo引擎搜索的蜘蛛会一次又一次访问爬取我们站点的文章内容,也会耗费一定的站点流量;有时候就必须屏蔽一些蜘蛛浏览我们的站点,文章尾部会讲解决方案;掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

2019年最新出搜索引擎蜘蛛网页爬虫大全分享,各大seo引擎搜索的蜘蛛会一次又一次访问爬取我们站点的文章内容,也会耗费一定的站点流量;

有时候就必须屏蔽一些蜘蛛浏览我们的站点,文章尾部会讲解决方案;

掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。
1、百度蜘蛛:BaiduSpider

常见的Baiduspider和Baiduspider-image(抓取图片)

百度公司还有其它几个蜘蛛:Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)、Baiduspider-mobile(抓取wap),都不常见

百度蜘蛛爬虫UA:

PC端:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移动端:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

图片:“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)

2、谷歌蜘蛛:Googlebot

有人说谷歌蜘蛛是GoogleBot,官方谷歌蜘蛛最新名称为Googlebot,还发现了Googlebot-Mobile,看名字是应该是抓取wap内容的

谷歌蜘蛛爬虫UA:“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

图片:“Googlebot-Image/1.0”

3、360蜘蛛:360Spider

它是一个十分“勤奋抓爬”的蜘蛛

360蜘蛛爬虫UA:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);

4、搜狗蜘蛛:Sogou News Spider

搜狗公司还有其它几个蜘蛛:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider,冬镜在日志中只发现了常见的Sogou News Spider。(参考大神百度的robots文件,搜狗蜘蛛名称可以用Sogou概括,但有没有用就不知道了.)

搜狗蜘蛛爬虫UA:“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

5、必应蜘蛛:bingbot

必应蜘蛛爬虫UA:“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

6、SOSO蜘蛛:Sosospider

腾讯已玩死,交给搜狗公司了

soso蜘蛛爬虫UA:“Sosospider+(+http://help.soso.com/webspider.htm)

7、雅虎蜘蛛:Yahoo! Slurp China(雅虎中国)或Yahoo! Slurp(雅虎英文)

雅虎蜘蛛爬虫UA:

雅虎中国:“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)

雅虎英文:“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

8、MSN蜘蛛:msnbot,msnbot-media

好像只见到msnbot-media在狂爬……

MSN蜘蛛爬虫UA:

*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

其它还有 一搜蜘蛛:YisouSpider、Alexa蜘蛛:ia_archiver、宜搜蜘蛛:EasouSpider、即刻蜘蛛:JikeSpider,以及还有YandexBot、AhrefsBot和ezooms.bot等这些蜘蛛,据说这几个国外的蜘蛛都不咋好

搜索引擎蜘蛛名称

其实常用的搜索引擎就那么几个,只要在网站根目录robots.txt文件里把常用的搜索引擎蜘蛛放进来就行,其它的可以统统屏蔽掉了。

相关文章
|
1月前
|
数据采集 搜索推荐 数据管理
基于Python爬虫的垂直搜索引擎设计与实现
基于Python爬虫的垂直搜索引擎设计与实现
|
7月前
|
数据采集 存储 搜索推荐
在Kotlin中设置User-Agent以模拟搜索引擎爬虫
在Kotlin中设置User-Agent以模拟搜索引擎爬虫
|
数据采集 存储 搜索推荐
搜索引擎爬虫的工作原理是什么?底层原理是什么?
搜索引擎爬虫的工作原理是什么?底层原理是什么?
311 0
|
数据采集
百度蜘蛛ip段大全分析爬虫式
百度蜘蛛ip段大全分析爬虫式:https://www.20200824.com
371 0
|
数据采集 XML 缓存
爬虫与搜索引擎的区别/pyhton爬虫结构
爬虫与搜索引擎的区别/pyhton爬虫结构
爬虫与搜索引擎的区别/pyhton爬虫结构
|
存储 数据采集 搜索推荐
基于Java学院网站的搜索引擎(Java 爬虫 搜索引擎)设计和实现
首先利用httpclient+多线程去模拟客户端去进行获取网页的内容,然后采用jsoup+多线程来进行解析网页内容并存储本地 项目主要使用技术 Httplcient
115 0
基于Java学院网站的搜索引擎(Java 爬虫 搜索引擎)设计和实现
|
数据采集 搜索推荐 Python
24、Python快速开发分布式搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
【百度云搜索:http://www.lqkweb.com】 【搜网盘:http://www.swpan.cn】 1、基本概念 2、反爬虫的目的 3、爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图
5996 0
|
数据采集 搜索推荐 前端开发
23、 Python快速开发分布式搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
转: http://www.bdyss.cn http://www.swpan.cn 用命令创建自动爬虫文件 创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l  查看scrapy创建爬虫文件可用的母版 Available templates:母版说明  ...
1143 0
21、 Python快速开发分布式搜索引擎Scrapy精讲—爬虫数据保存
转: 【http://bdy.lqkweb.com】 【http://www.swpan.cn】 注意:数据保存的操作都是在pipelines.py文件里操作的 将数据保存为json文件 spider是一个信号检测 # -*- coding: utf-8 -*- # Define your it.
1235 0
|
数据采集 前端开发 搜索推荐
20、 Python快速开发分布式搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
编写spiders爬虫文件循环抓取内容 Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数,  参数:  url='url'  callback=页面处理函数  使用时需要yield Request() parse.
1303 0