爬虫识别-指标碰撞-代码实现总结| 学习笔记-阿里云开发者社区

爬虫识别-指标碰撞-代码实现总结| 学习笔记

2022-11-23 101

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 快速学习爬虫识别-指标碰撞-代码实现总结

开发者学堂课程【大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop 框架搭建）第六阶段：爬虫识别-指标碰撞-代码实现总结】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/674/detail/11721

爬虫识别-指标碰撞-代码实现总结

内容介绍：

一、回顾

二、总结

一、回顾

之前将指标碰撞结果与选定与否无关、必须选定的计算完成，拥有流程中打分所需要的两个结果，碰撞做完。

二、总结

碰撞分为准备数据、指标碰撞两部分。

01准备数据

1、提取一个 ip 在八个结果集内对应的数据，

val ipBlockCounts=ipBlockCountsMap.getOrElse(ipBlock,0)

val ipCounts=ipCountsMap.getOrElse(ip,0)

val criticalPagesCounts=criticalagesCountsMap.getOrElse(ip,0)

val userAgentCounts=userAgentCountsMap.getOrElse(ip,0)

val differentJourneysCounts=differentJourneysCountsMap.getOrEls

e(ip,0)

val ipCookCount=ipCookCountMap.getOrElse(ip,0)

val minTimeDiff=minTimeDiffMap.getorElse(ip,0)

val lessDefaultTimes=lessDefaultTimesMap.getorElse(ip,0)

2、将取出的数据封装为 Map，将 Map 与流程数据传入碰撞方法

val dataParams=Map(

"ipBlock"->ipBlockcounts,

"ip"->ipCounts,

"criticalPages"->criticalPagesCounts,

"userAgent"->userAgentCounts,

"criticalcookies"->ipCookcount,

"flightQuery"->differentJourneyscounts,

"criticalPagesAccTime"->minTimeDiff,

"criticalPagesLessThanDefault"->lessDefaultTimes

02指标碰撞

1、根据算法需求实例两个 ArrayBuffer

//一个选定与否无关的数据分数，若数据的值大于设置的阈值返回数据的分数，反之返回0

//结果集的大小一直是8

val allRuleScoreList=new ArrayBuffer[Double]()

//一个必须是选定状态的并且数据的结果大于配置的阈值返回分数，反之不做返回

//结果大小不定

val selectRuleScoreList=new ArrayBuffer[Double]()

2、遍历流程数据，获取流程内的规则

for(flow<-flowList){

//获取流程内的规则（8个）

val rules=flow.rules

}

3、获取规则内的阈值

val databaseValue=if(rule.ruleName.equals("criticalPagesLessTha

nDefault") rule.ruleValue1 else rule.ruleValue0

4、获取数据计算出的结果

val dataValue=dataParams.getOrElse(rule.ruleName)

5、数据对比

//数据计算的结果大于阈值，根据需求将分数写入相应的ArrayBuffer内

//数据计算的结果小于阈值，根据需求填入ArrayBuffer(是否需要填写)

if(dataValue>databaseValue){

allRuleScoreList.append(rule.ruleScore)

//判断规则是否选中

if(rule.rulestatus==0){

selectRuleScoreList.append(ruleruleScore）

}

}else{//反之数据计算的结果小于阈值

allRuleScoreList.append(0)

}

数据值大于数据库值时添加值，反之添加0。必须选定的做判断。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

爬虫识别-指标碰撞-代码实现总结| 学习笔记

爬虫识别-指标碰撞-代码实现总结

一、回顾

二、总结

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

爬虫识别-指标碰撞-代码实现总结| 学习笔记

爬虫识别-指标碰撞-代码实现总结

一、回顾

二、总结

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景