如何通过 User-Agent 识别百度蜘蛛

简介: 如何通过 User-Agent 识别百度蜘蛛

如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。

如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。

我们可以通过 User-Agent 大概判断是不是百度蜘蛛(baidu spider)。

百度 User-Agent 主要有以下几个:

  • 百度 PC 蜘蛛 User-Agent 是:

    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

  • 百度移动蜘蛛 User-Agent 是:

    Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  • 还有一个是 Baiduspider-render/2.0 User-Agent 是:

    Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的 CSS、Javascript 和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。

Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以获取 Javascript 内容,实现动态渲染。

还有其他的百度产品的 User-Agent:

  • 百度图片搜索 User-Agent:

    Baiduspider-image+(+http://www.baidu.com/search/spider.htm)

  • 百度视频搜索 User-Agent:

    Baiduspider-video

  • 百度新闻搜索 User-Agent:

    Baiduspider-news

  • 百度搜藏 User-Agent:

    Baiduspider-favo

  • 百度联盟 User-Agent:

    Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)

  • 商务搜索 User-Agent:

    Baiduspider-ads

以上总结了百度所有产品的 User-Agent,但是仅仅通过 User-Agent 识别百度蜘蛛(baidu spider)是完全不够的,因为 User-Agent 完全可以被伪造

如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛(baidu spider)我将在以后的文章中详述。

参考资料:

1、爬虫识别 - 百度蜘蛛

2、站长平台 - 常见问题解答

相关文章
|
数据采集
百度蜘蛛ip段大全分析爬虫式
百度蜘蛛ip段大全分析爬虫式:https://www.20200824.com
361 0
www.20200824.com百度蜘蛛爬行规则和收录要素
百度蜘蛛爬行规则和收录要素:https://www.20200824.com
114 0
www.20200824.com百度蜘蛛爬行规则和收录要素
|
搜索推荐
如何吸引百度蜘蛛加百度站长
如何吸引百度蜘蛛加百度站长:https://www.20200824.com/292.html
190 0
如何吸引百度蜘蛛加百度站长
|
索引 SEO 监控
百度蜘蛛抓取和排名有关系吗?
百度蜘蛛抓取预算优化让百度排名更高 影响百度排名的因素有很多 – 外部链接,关键字使用,网站速度等等。但是,当您开始优化网站时,您需要记住的是,为了支付您的网站所需的所有优化工作,需要对其进行抓取和编制索引。
1043 0
|
数据采集
解决百度蜘蛛无法爬取Hexo博客的问题
写在前面   先上两张图对比下: Google-site:blog.mariojd.cn Baidu-site:blog.mariojd.cn   由于GitHub Pages是拒绝百度爬虫爬取的,包括用Hexo或Jekyll搭建的博客,因此你的站点再怎么SEO优化,这在国内也是收录和搜索不到的。
1785 0
该怎么吸引百度蜘蛛抓取,来提升我们的收录
     百度对于收录页面是通过网站入口URL的联通成一个网状,然后百度的抓取功能是被称为“百度蜘蛛”的工具在进行收集,那么这个百度蜘蛛的收集器就是网站页面收录的关键。怎么才能吸引百度蜘蛛抓取,来提升我们的收录呢   现在我国做网站优化常常出现两个极端,一个是很多站长非常注重网页设计,内容建设,存在着重视用户却忽视百度蜘蛛的现象,认为只要自己的网站质量好,那么就会酒香不怕巷子深。
2280 0
|
数据采集 定位技术 数据库
|
应用服务中间件 nginx 算法