爬虫识别-指标碰撞-实现思路| 学习笔记

简介: 快速学习爬虫识别-指标碰撞-实现思路

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第六阶段爬虫识别- Redis 爬虫数据备份-代码解读】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/674/detail/11719


爬虫识别- Redis 爬虫数据备份-代码解读

目录

一、回顾

二、指标碰撞实践

三、指标碰撞步骤

 

一、回顾

之前将数据碰撞的准备数据代码写完,数据的提取,提取后将数据转换为 Map 类型,将 Map 和数据库中配置的流程数据流程规则的阈值放到 calculateFlowsScore 方法里,最终返回样例列,如下

AntiCalculateResultmessage: ProcessedData

ip:string,

ipBlockCounts:Int,

ipCounts:Int,

criticalPagesCounts:Int,

userAgentCounts:Int,

minTimeDiff:Int

lessDefaultTimes:Int

differentJourneysCounts:Int,

ipCookCount:Int,

flowsScore:Array[FlowScoreResult])

flowsScore:Array[FlowScoreResult]) 参数没有,让碰撞方法返回此类型能计算出结果。calculateFlowsScoredataParamsflowList 报红,方法没有返回,要 Array 类型的数据。进行指标碰撞返回flowsScore:Array[FlowScoreResult]类型,不报错。

 

二、指标碰撞实践

//1指标碰撞(碰撞)

def calculateFlowsScore(dataParams:Map[stringInt]flowList:Arr

ayBuffer[Flowcollocation]):Unit ={

val flowScore=new ArrayBuffer 类型是[FlowScoreResult], flowS

core 进行返回,报红,返回的是 Array,调用 ArrayBuffer。将 flowsS

Core .toArray,不报错。

val flowsScore=new ArrayBuffer[FlowscoreResult]()

flowsscore.toArray

封装 flowsScore 做返回,实际上是一层套一层。缺 flowsScore,完善 flowsScore,同时将数据做碰撞。

 

三、指标碰撞步骤

1、根据算法需求实例两个 ArrayBuffer

假设指标碰撞已有,输出结果是与选定与否无关得分结果集、选定的得分结果集,结果是由打分算法输入的参数进行设置,打分要什么,指标碰撞给什么,输出的数据是打分算法想要的。根据算法想要的数据设置两个 ArrayBuffer,与选定与否无关得分结果集、选定的得分结果集。

一个选定与否无关的数据分数

一个必须是选定状态的并且数据的结果大于配置的值的分数

2、遍历流程数据,获取流程内的规则

遍历流程数据是 flowList,拿到一个流程有很多数据和规则。

3、获取规则内的阈值

4、获取数据计算出的结果

拿出 Map 提出的数据

5、数据对比

数据计算的结果大于阈值,根据需求将分数写入相应的ArrayBuffer

数据计算的结果小于阈值,根据需求填入ArrayBuffer(是否需要填写)

数据计算出的值与数据库中阈值进行对比,如果计算结果大于阈值要分数。

为了封装两个 ArrayBuffer,一个选定与否无关的数据分数,一个必须是选定状态的并且数据的结果大于配置的值的分数,两个数据最终给打分算法使用。

指标碰撞分析将数据计算的值与企业配置的阈值进行对比,为打分算法准备数据,碰撞为打分算法准备数据。

流程拿到开发工具

//1根据算法需求实例两个 ArrayBuffer

//一个选定与否无关的数据分数

//一个必须是选定状态的并且数据的结果大于配置的值的分数

//2遍历流程数据,获取流程内的规则

//3获取规则内的阈值

//4获取数据计算出的结果

//5数据对比

//数据计算的结果大于阈值,根据需求将分数写入相应的 ArrayBuffe

r

//数据计算的结果小于阈值,根据需求填入 ArrayBuffer(是否需要填写)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 人机交互 API
「Python」爬虫-7.验证码的识别
> 本文主要介绍如何处理一些网页中简单的验证码问题。~~(只提供简单的思路,随着技术的发展,一些验证码已经防范的非常好了,一般的解决方法可能过不了验证码这一关🤺~~
338 0
|
数据采集 SQL 消息中间件
数据预处理-历史爬虫判断-实现代码及效果|学习笔记
快速学习数据预处理-历史爬虫判断-实现代码及效果
96 0
数据预处理-历史爬虫判断-实现代码及效果|学习笔记
|
数据采集 监控 前端开发
数据预处理-历史爬虫判断-需求与实现思路|学习笔记
快速学习数据预处理-历史爬虫判断-需求与实现思路
83 0
数据预处理-历史爬虫判断-需求与实现思路|学习笔记
|
数据采集 算法 大数据
爬虫识别-总结及效果| 学习笔记
快速学习爬虫识别-总结及效果
156 0
爬虫识别-总结及效果| 学习笔记
|
数据采集 存储 消息中间件
爬虫识别-准备离线计算数据| 学习笔记
快速学习爬虫识别-准备离线计算数据
139 0
爬虫识别-准备离线计算数据| 学习笔记
|
数据采集 大数据 数据库
爬虫识别-指标碰撞-准备数据代码实现| 学习笔记
快速学习爬虫识别-指标碰撞-准备数据代码实现
121 0
爬虫识别-指标碰撞-准备数据代码实现| 学习笔记
|
数据采集 算法 大数据
爬虫识别-指标碰撞-准备数据 avi| 学习笔记
快速学习爬虫识别-指标碰撞-准备数据 avi
127 0
爬虫识别-指标碰撞-准备数据 avi| 学习笔记
|
4天前
|
数据采集 数据可视化 数据挖掘
Python爬虫实战:抓取网站数据并生成报表
本文将介绍如何使用Python编写简单而高效的网络爬虫,从指定的网站上抓取数据,并利用数据分析库生成可视化报表。通过学习本文内容,读者将能够掌握基本的爬虫技术和数据处理方法,为日后开发更复杂的数据采集与分析工具打下坚实基础。
|
3天前
|
数据采集 数据可视化 数据挖掘
使用Python编写Web爬虫实现数据采集与分析
在当今信息化时代,数据是企业发展和决策的重要依据。本文将介绍如何使用Python编写Web爬虫来实现对特定网站数据的自动采集,并结合数据分析技术,为读者展示如何利用爬虫技术获取有价值的信息并进行有效的数据处理和分析。
|
6天前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
Python爬虫可以用来抓取拼多多商品数据,并对这些数据进行数据分析。以下是一个简单的示例,演示如何使用Python爬取拼多多商品数据并进行数据分析。