如何通过 User-Agent 识别百度蜘蛛

简介: 如何通过 User-Agent 识别百度蜘蛛

如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。

如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。

我们可以通过 User-Agent 大概判断是不是百度蜘蛛(baidu spider)。

百度 User-Agent 主要有以下几个:

  • 百度 PC 蜘蛛 User-Agent 是:

    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

  • 百度移动蜘蛛 User-Agent 是:

    Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  • 还有一个是 Baiduspider-render/2.0 User-Agent 是:

    Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的 CSS、Javascript 和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。

Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以获取 Javascript 内容,实现动态渲染。

还有其他的百度产品的 User-Agent:

  • 百度图片搜索 User-Agent:

    Baiduspider-image+(+http://www.baidu.com/search/spider.htm)

  • 百度视频搜索 User-Agent:

    Baiduspider-video

  • 百度新闻搜索 User-Agent:

    Baiduspider-news

  • 百度搜藏 User-Agent:

    Baiduspider-favo

  • 百度联盟 User-Agent:

    Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)

  • 商务搜索 User-Agent:

    Baiduspider-ads

以上总结了百度所有产品的 User-Agent,但是仅仅通过 User-Agent 识别百度蜘蛛(baidu spider)是完全不够的,因为 User-Agent 完全可以被伪造

如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛(baidu spider)我将在以后的文章中详述。

参考资料:
2、站长平台 - 常见问题解答

相关文章
|
8月前
|
数据采集 Python
Python爬虫:设置随机 User-Agent
Python爬虫:设置随机 User-Agent
193 0
|
8月前
|
数据采集 应用服务中间件 nginx
百度搜索:蓝易云【nginx一些常用user_agent的匹配规则】
这个规则将会根据user_agent中是否包含"Android"、"iPhone"或"iPad"等关键词,将根目录的访问重定向到/mobile/目录下。需要注意的是,使用if指令可能会导致性能下降,建议尽量使用map模块进行user_agent的匹配。在编写规则时,应该确保匹配规则的准确性,以免误判或产生意外的结果。
111 0
|
数据采集 存储 搜索推荐
在Kotlin中设置User-Agent以模拟搜索引擎爬虫
在Kotlin中设置User-Agent以模拟搜索引擎爬虫
|
数据采集 Web App开发 安全
如何在Puppeteer中设置User-Agent来绕过京东的反爬虫机制?
如何在Puppeteer中设置User-Agent来绕过京东的反爬虫机制?
|
数据采集 监控 搜索推荐
谷歌收录之后的URL是否会掉?
答:GSI收录服务只管促成网站页面收录。收录之后是否会被谷歌清除索引,这个取决于你的页面内容质量,而非取决于GSI服务。 谷歌收录机制概览 谷歌的收录原则 谷歌搜索引擎通过其复杂的算法确定哪些网页应该被收录。 这不仅基于网站的内容质量,还取决于其技术优化、用户体验和外部引用。 收录后的监控 一旦谷歌收录了URL,它将继续监控这些页面。 任何重大变化,如内容更新或链接丢失,都可能导致页面的排名波动。
105 0
谷歌收录之后的URL是否会掉?
|
数据采集 监控 安全
2021常见的搜索引擎蜘蛛的User Agent汇总
2021常见的搜索引擎蜘蛛的User Agent汇总
887 0
|
Web App开发 搜索推荐 .NET
识别真假搜索引擎(搜索蜘蛛)方法(baidu,google,Msn,sogou,soso等)
http://www.useragentstring.com/pages/useragentstring.php   今天分析研究了两个网站的 Apache 日志,分析日志虽然很无聊,但却是很有意义的事情,比如跟踪 SPAM 的 User Agent。
3583 0
|
数据采集 Python
Python爬虫:常用的浏览器请求头User-Agent
Python爬虫:常用的浏览器请求头User-Agent
374 0
|
Web App开发 Linux Python
设置用户代理User Agent访问网页(Python2.7)
本文目录 1. 概念 2. 在python中设置代理 3. 更多设置
200 0
设置用户代理User Agent访问网页(Python2.7)
|
中间件 Python 数据采集
Scrapy使用随机User-Agent爬取网站
小哈.jpg 在爬虫爬取过程中,我们常常会使用各种各样的伪装来降低被目标网站反爬的概率,其中随机更换User-Agent就是一种手段。 在scrapy中,其实已经内置了User-Agent中间件, class UserAgentMiddl...
1954 0