识别真假搜索引擎(搜索蜘蛛)方法(baidu,google,Msn,sogou,soso等)

简介: http://www.useragentstring.com/pages/useragentstring.php   今天分析研究了两个网站的 Apache 日志,分析日志虽然很无聊,但却是很有意义的事情,比如跟踪 SPAM 的 User Agent。

http://www.useragentstring.com/pages/useragentstring.php

 

今天分析研究了两个网站的 Apache 日志,分析日志虽然很无聊,但却是很有意义的事情,比如跟踪 SPAM 的 User Agent。顺便整理出一些搜索引擎爬虫的 User Agent,在这里分享一下,也欢迎补充。

微软

“msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)”
msnbot,大多数已经被bingbot替代了,现在偶尔还可以看到。

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”
bing,必应

搜搜

“Sosospider+(+http://help.soso.com/webspider.htm)”
腾讯搜搜

“Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)”
搜搜图片

雅虎

“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
雅虎英文

“Yahoo! Slurp China”
“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
雅虎中国

搜狗

“http://pic.sogou.com” “Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗图片

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗,搜狗的蜘蛛程序做的很不好,总是进入死循环,已经分别在 robots.txt 和 设置中屏蔽掉

 

Google

“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Google

“Googlebot-Image/1.0”
Google图片搜索

“Mediapartners-Google”
未知

“FeedBurner/1.0 (http://www.FeedBurner.com)”
feedburner

“AdsBot-Google-Mobile (+http://www.google.com/mobile/adsbot.html) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari”
Adwords移动网络

百度

“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”
百度图片

“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
亲爱的百度蜘蛛

“Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8;baidu Transcoder) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729)”
baidu+Transcoder 是用户用手机浏览网站留下的记录,Transcoder 是代码转换器,把网站转码成手机用户上网看到的网页留下的记录

360

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); 360Spider
360搜索

其他搜索引擎

“Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )”
网易有道

“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)”
来自瑞典的搜索引擎,网站看起来很不错,http://www.entireweb.com

“jikespider \”Mozilla/5.0”
即刻搜索,原人民搜索,搜索引擎国家队,已倒闭

“Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”
俄罗斯yandex

Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)
宜搜,不认识,一直不停抓取,已屏蔽

其他已知bot

“HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; http://www.huaweisymantec.com/cn/IRL/spider)”
华为赛门铁克蜘蛛,是华为赛门铁克科技有限公司网页信誉分析系统的一个页面爬取程序,其作用是用于爬取互联网网页并进行信誉分析,从而检查该网站上的是否含有恶意代码。
http://baike.baidu.com/view/5994606.htm

qiniu-imgstg-spider-1.0
七牛镜像蜘蛛

“xFruits/1.0 (http://www.xfruits.com)”
xFruits,聚合rss用的

Feedly/1.0 (+http://www.feedly.com/fetcher.html; like FeedFetcher-Google)
Feedly,Google Reader 关闭后一直用这个

Mozilla/5.0 (compatible;YoudaoFeedFetcher/1.0;http://www.youdao.com/help/reader/faq/topic006/;1 subscribers;)
有道阅读

FeedDemon/4.5 (http://www.feeddemon.com/; Microsoft Windows)
一款离线RSS阅读器

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; JianKongBao Monitor 1.1)”
监控宝

DNSPod-Monitor/2.0
DNSPod监控

“Mozilla 5.0 (compatible; Feedsky crawler /1.0; http://www.feedsky.com)”
Feedsky

“Xianguo.com 1 Subscribers”
鲜果

360spider(http://webscan.360.cn)
360网站安全检测

“yrspider Mozilla/5.0 (compatible; YRSpider; +http://www.yunrang.com/yrspider.html)”
云壤公司,http://www.yunrang.com/yrspider.html

其他未知bot

“Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; EmbeddedWB 14.52 from: http://www.bsalsa.com/ EmbeddedWB 14.52; .NET CLR 2.0.50727)”
怀疑为发布SPAM用的,因为总是在获取注册页面和验证码

Mozilla/5.0 (compatible; LinkpadBot/1.06; +http://www.linkpad.ru)
LinkpadBot,看域名知道是来自俄罗斯的

Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
又一个国外的

“Mozilla/5.0 (compatible; MJ12bot/v1.4.0; http://www.majestic12.co.uk/bot.php?+)”
来自英国的未知bot

“Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)”
未知

“IS Alpha/Nutch-1.1”
未知

Nutch Spider/Nutch-2.2.1
貌似是上面那个进化来的

“BlogPulseLive (support@blogpulse.com)”

“findlinks/2.0.2 (+http://wortschatz.uni-leipzig.de/findlinks/)”
来自德国的未知bot

“Mozilla/4.0 (compatible; MSIE 6.0; AugustBot/augstbot@163.com)”
未知,貌似与网易有关

“InternetSeer.com”
未知

“Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)”
未知,已更新为下面的

Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)
DotBot,不认识

“http://www.internet-zarabotok.net/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Win64; AMD64)”
来自俄罗斯的未知bot

Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.19; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/2010040121 Firefox/3.0.19
Spinn3r,不认识

Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
Exabot,还是不认识

Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)
Exabot,不认识

psbot/0.1 (+http://www.picsearch.com/bot.html)
psbot,不认识

TurnitinBot/3.0 (http://www.turnitin.com/robot/crawlerinfo.html)
TurnitinBot,不认识

 

目录
相关文章
|
3月前
|
人工智能 缓存 搜索推荐
百度/Bing/Google搜索引擎使用技巧
本文分享了百度、Bing和Google三大搜索引擎的实用技巧,涵盖精确匹配、排除关键词、站内及文件类型搜索等,如使用双引号进行精确搜索“人工智能应用”,排除特定词如“人工智能 -游戏”,以及在特定网站如“site:baidu.com 人工智能”内查找内容等,帮助提高搜索效率和准确性。
百度/Bing/Google搜索引擎使用技巧
|
3月前
|
安全 中间件 PHP
Google Hacking高级实战-搜索特定口子-敏感信息
Google Hacking高级实战-搜索特定口子-敏感信息
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
R语言Pearson相关性分析降雨量和“外卖”谷歌搜索热度google trend时间序列数据可视化
R语言Pearson相关性分析降雨量和“外卖”谷歌搜索热度google trend时间序列数据可视化
|
7月前
|
数据可视化 搜索推荐 数据挖掘
R语言Pearson相关性分析就业率和“性别平等”谷歌搜索热度google trend时间序列数据可视化
R语言Pearson相关性分析就业率和“性别平等”谷歌搜索热度google trend时间序列数据可视化
|
7月前
|
自然语言处理 搜索推荐 SEO
如何使用 Google 搜索引擎保姆级教程(附链接)
如何使用 Google 搜索引擎保姆级教程(附链接)
|
人工智能 自然语言处理 数据可视化
Google SGE 正在添加人工智能图像生成器,现已推出:从搜索中的生成式 AI 中获取灵感的新方法
Google SGE 正在添加人工智能图像生成器,现已推出:从搜索中的生成式 AI 中获取灵感的新方法
273 1
|
前端开发 JavaScript Python
10 个使用 Google 搜索的小技巧
最近 Twitter 上有一篇介绍 Google 搜索技巧的帖子,觉得非常实用,所以分享给大家,原帖子地址放在文末了。
144 0
10 个使用 Google 搜索的小技巧
|
数据采集 JavaScript 搜索推荐
对于Python抓取Google搜索结果的一些了解
对于Python抓取Google搜索结果的一些了解
|
Linux 应用服务中间件 数据库
Google搜索技巧
Google搜索技巧
100 0
|
开发框架 算法 搜索推荐
涨知识|Google语法快速高效的搜索
涨知识|Google语法快速高效的搜索
200 0
下一篇
DataWorks