爬虫识别-UA 种类统计-代码实现及效果|学习笔记

简介: 快速学习爬虫识别-UA 种类统计-代码实现及效果。

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第五阶段爬虫识别-UA 种类统计-代码实现及效果】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/673/detail/11702


爬虫识别-UA 种类统计-代码实现及效果

 

目录:

一、代码实现

二、执行效果

三、总结 

 

一、代码实现

1、抽取出数据中的 IP 和数据中的 ua

统计 IP 截取 IP 和 ua,调用数据 processedData.map 进行遍历循环,map 拿到一条数据 message,message 进行循环。

拿到数据,截取 IP val ip 接收=message.remoteAdder。

获取 ua val ua=message.httpUserAgent

processedData.map(message=>{

//抽取出数据中的 IP 和数据中的 ua

//获取 ip

val ip =message.remoteAddr

//获取 ua

val ua =message.httpUserAgent 

2、使用 ip 作为 key,ua 作为 value,将其输出

(ip,ua)

3、调用 groupByKeyAndWindow,得到的结果是 key(IP)和 value 的 list(ua 的 list)

.groupByKeyAndWindow 传入参数,reduceByKey 时加加,groupby

keyAndWindow 分组不需要加,直接写窗口函数需要的参数,窗口的宽度6秒钟,滑动的步长2秒钟,迭代计算做完。输出(ip,ua)调用 groupbykeyAndWindow 得到 IP 和 ua 的 list,返回结果为 IP 以及 list 里面是 ua

做接收 val ipAndUA, ipAndUA 是拿到的结果。

val ipAndUA=ProcessedData.map(message)=>{

}).groupByKeyAndWindowSeconds(6)seconds(2))//调用 group By

KeyAndWindow,得到的结果是 key(IP)和 value的 list(ua的list)

Key 是 ip 

4、获取出 ip,和 value 的 list(ua 的 list),将 value 的 list去重再求大小。

获取 ipAndUA,调用 groupByKeyAndWindow,得到的结果是 key(IP)和 value的 list(ua的list)。获取出ip,和value的list(ua的list),将 value的 list去重再求大小。

拿到 key 和 value的 list,调用.map,处理完的一条条数据 messag

e,获取 ip,val message.

ipAndUA 返回 ip 和 ua,经过 groupByKeyAndWindow 返回 ip 和 value的list 两个值。_1是IP,第一个值。

获取 ua 的 list,val ualist=message.2

ualist 去重,没有.distinct,ualist 数据类型为 Iterable[String]=ualist  不提供 distinct。

转换为 tolist,调用.distinct 可进行去重,去重后调用.size 求大小。拿到 val uaCounts,此批次中一个 ip 有多少 ua

// 获取出 ip,和 value 的 list(ua的list),将 value 的 list 去重再求大小。

ipAndUA.map(message=>{

//获取 ip

val ip=message._1

//获取 ua 的 list

val uaList=message._2

//将 value 的 list去重再求大小。

val uaCounts= uaList.toList.distinct.size

5、将 ip 和值大小返回

(ip,uaCounts),前面做接受 userAgent 并返回

val userAgent=ipAndUA.map(message=>{

(ip,uaCounts)

})

userAgent

ip 和 ua 返回调用 groupByKeyAndWindow 拿到 key 和 value 的 list(ua的list)。单独拿到 ip、ualist,ualist 转换为 tolist 进行.disti

nct.size。返回接收

//4 按 IP 地址聚合-某个IP,5分钟内的 UA 种类数统计

val userAgentcounts=CoreRule.userAgent(processedData)

6、将最终数据转换为 Map,便于后续提取、使用。

var=userAgentCountsMap=null

将数据转换为 map,Counts.foreachRDD(rdd=>{ 拿到 rdd,将 rdd 转换为 collectAsMap,数据类型为 [String,Int],复制粘贴到 var=use

rAgentCountsMap=null,用 userAgentCountsMap 接收。使用直接调用。

//将最终数据转换为 Map,便于后续提取、使用。

var userAgentCountsMap: collection.Map[string,Int]=nul]

userAgentCounts.foreachrDD(rdd=>{

userAgentCountsMap=rdd.collectAsMap()

})

 

二、执行效果

输出,关闭上个输出

//criticalPageCounts.foreachRDD(rdd=>rdd.foreach(println)

userAgentCounts 是 ip 和 userAgent size

输出效果,预处理、爬虫、爬虫识别跑起来。返回1,userAgent 去重,6秒钟,1秒钟刷一次有6条数据。6条数据虽然调用 groupByKey

AndWindow,但做了去重。爬虫只有一个,userAgent 只写一个,一个经过去重求大小只有一个。

19/05/17 19:03:56 INFO VerifiableProperties: Property zookeeper.

connect is overridden to

19/05/17 19:03:56 INFO VerifiableProperties: Property zookeeper.

connect is overridden to

(192.168.100.2,1)

停止爬虫、程序

 

三、总结

1、抽取出数据中的 IP 和数据中的 ua

//获取 ip

val ip =message.remoteAddr

//获取 ua

val ua =message.httpUserAgent

2、使用 ip 作为 key,ua 作为 value,将其输出

(ip,ua)

3、调用 groupbykeyAndWindow,得到的结果是 key(IP)和 value的 list(ua的list)

.groupByKeyAndWindowSeconds(6)seconds(2))

4、单独获取出 ip,和 value 的 list(ua的list),将 value 的 list 去重再求大小就是 ua 的种类

//获取 ip

val ip=message._1

//获取 ua 的 list

val uaList=message._2

//将 value 的 list去重再求大小。

val uaCounts= uaList.toList.distinct.size

5、将 ip和值大小返回

(ip,uaCounts)

6、将最终数据转换为 Map,便于后续提取、使用。

var userAgentCountsMap: collection.Map[string,Int]=nul]

userAgentCounts.foreachrDD(rdd=>{

userAgentCountsMap=rdd.collectAsMap()

})

进入 groupbykeyAndWindow,以下是独立操作  

val ipAndUA=ProcessedData.map(message)=>{

//抽取出数据中的 IP 和数据中的 ua

//获取 ip

val ip =message.remoteAddr

//获取 ua

val ua =message.httpUserAgent

//使用 ip 作为 key,ua 作为 value,将其输出

(ip,ua)

}).groupByKeyAndWindowSeconds(6)seconds(2))

拿到 ip 和 ua 的 list,然后单独将 ip ua 抽出,抽出后转换去重求大小。

分两步先求取出 ip 和 ua 的 list,然后对 ua 的 list 去重、求大小。

相关文章
|
2月前
|
数据采集 Web App开发 文字识别
Python爬虫之点触验证码的识别
点触验证码识别思路,初始化,获取,识别。
113 0
Python爬虫之点触验证码的识别
|
2月前
|
数据采集 机器学习/深度学习 安全
Python爬虫之极验滑动验证码的识别
了解极验滑动验证码、特点、识别思路、初始化、模拟点击、识别缺口、模拟拖动。
187 0
|
2月前
|
数据采集 文字识别 开发者
Python爬虫之图形验证码的识别
python爬虫逆向图形验证码分析,处理和测试实战。
81 0
|
数据采集 人机交互 API
「Python」爬虫-7.验证码的识别
> 本文主要介绍如何处理一些网页中简单的验证码问题。~~(只提供简单的思路,随着技术的发展,一些验证码已经防范的非常好了,一般的解决方法可能过不了验证码这一关🤺~~
367 0
|
数据采集 SQL 消息中间件
数据预处理-历史爬虫判断-实现代码及效果|学习笔记
快速学习数据预处理-历史爬虫判断-实现代码及效果
118 0
数据预处理-历史爬虫判断-实现代码及效果|学习笔记
|
数据采集 监控 前端开发
数据预处理-历史爬虫判断-需求与实现思路|学习笔记
快速学习数据预处理-历史爬虫判断-需求与实现思路
99 0
数据预处理-历史爬虫判断-需求与实现思路|学习笔记
|
数据采集 算法 大数据
爬虫识别-总结及效果| 学习笔记
快速学习爬虫识别-总结及效果
188 0
爬虫识别-总结及效果| 学习笔记
|
1天前
|
数据采集 XML API
Python 爬虫数据抓取(10):LXML
Python 爬虫数据抓取(10):LXML
9 1
|
2天前
|
数据采集 Python
半小时速通Python爬虫!GitHub开源的Python爬虫入门教程
今天给小伙伴们带来了一篇详细介绍 Python 爬虫入门的教程,从实战出发,适合初学者。 小伙伴们只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫。
|
2天前
|
数据采集 Python
半小时速通Python爬虫!GitHub开源的Python爬虫入门教程
今天给小伙伴们带来了一篇详细介绍 Python 爬虫入门的教程,从实战出发,适合初学者。 小伙伴们只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫。