开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第五阶段:爬虫识别-爬虫识别代码实现顺序介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/673/detail/11694
爬虫识别-爬虫识别代码实现顺序介绍
目录:
一、计算爬虫识别需要的八个指标
二、爬虫识别
三、数据入库
前面数据封装成 processedData,读取了规则,计算相关页面、流程相关数据。
做爬虫识别有封装数据、规则
总流程中5-1数据读取完毕、5-2规则读取完毕,开始做爬虫识别,实现计算八个指标以及后续工作。
搭建整个代码块架构包括八个指标计算以及爬虫识别、数据入库过程
一、计算爬虫识别需要的八个指标
复制粘贴八个指标
//1按 IP 段聚合 - 5 分钟内的 IP 段(IP 前两位)访问量
//2按 IP 地址聚合-某个 IP,5 分钟内总访问量
//3按 IP 地址聚合-某个 IP,5 分钟内的关键页面访问总量
//4按 IP 地址聚合-某个 IP,5 分钟内的 UA 种类数统计
//5按 IP 地址聚合-某个 IP,5 分钟内查询不同行程的次数
//6按 IP 地址聚合-某个 IP,5 分钟内访问关键页面的 Cookie数
//7按 IP 地址聚合-某个 IP,5 分钟内的关键页面最短访问间隔
//8按 IP 地址聚合-某个 IP, 5 分钟内小于最短访问间隔(自设)的关键页面查询次数
分别计算出八个指标,计算完后做爬虫识别,指标碰撞计算出的八个与指标碰撞
二、爬虫识别
//1 指标碰撞
//2 最终打分
//3 爬虫判断(结论:是/不是)
三、数据入库
只关心爬虫数据,普通用户放行,将非爬虫数据过滤。可能有重复数据,对爬虫数据进行去重。
//数据入库
//1 过滤非爬虫数据(只保留爬虫数据)
//2 对爬虫数据进行去重操作
//3 数据入库(Redis)
总体流程数据入库,爬虫识别判断过程5-1读取数据,5-2读取规则在 Streaming 计算数据读取、指标数据封装、八个指标计算、爬虫识别、入库1和2。最后一步6数据入库到 Redis
具体代码按照哪些顺序做、分别做哪些事