开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段:数据可视化+流程管理+系统管理】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/669/detail/11587
数据可视化+流程管理+系统管理
内容介绍:
一、数据可视化
二、流程管理
三、系统管理
四、报表模块
一、数据可视化
1.离线分析
代码在后台运行,前端可以看到数据可视化界面,其中的数据对于反爬虫识别没有太大作用。但在企业需要某些指标时,需要将结果计算出来,通过9写入到 Mysql 中。
如国内转化率、国际转化率、排除爬虫与未排除爬虫、及国内、国际单程查询爬取频次,国内、国际双程爬取频次及爬虫查询航线排名。占座规律因数据涉及到顾客隐私,暂时无法分析。
二、流程管理
制定一些规则,或者更多细节识别爬虫的规则并分类,只适用于某一特定阶段。
流程内部包含规则,每一规则都有一阈值,需要使用者自行设置。
5-1读取数据,5-2读取规则, 计算数据中的8个指标,与企业中配置好的8个指标阈值对比,若分数超过阈值,则为爬虫,若不超过,则不是爬虫。将爬虫数据写入 Redis 中,结束。
1.配置规则
企业配置好规则,数据传递过来后,再按照规则逐一计算出每个指标,再将计算出来的指标与企业配置的指标进行对比。若配置的指标超过了阈值,就拿各个规则后相应的分数表示,若未超过,则按实际需求选择。
2.配置策略
黑名单阈值:如图,若计算出来的分数经算法返回后超过了设置的阈值,则是爬虫,若小于, 则不是爬虫。
三、系统管理
企业内部用户管理界面
四、报表模块:
1.报表是通过离线进行统计的,离线的数据来源是通过流式处理打到 hdfs 的;
2.报表的指标包含:购票的转化率、查定比、爬虫的规律、系统稳定性;