开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段:系统监控+性能监控】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/669/detail/11586
系统监控+性能监控
内容介绍:
一、数据预处理
二、爬虫识别
三、总结
一、数据预处理
3-1 Kafka 中读取出数据,3-2读取出相应规则,在数据预处理阶段进行处理,4处理结束后,写入 Kafka 中,此过程均在后台运行。使用者在预处理环节可以在首页可以看到系统监控页面。
1. 系统监控功能:
监控整个数据预处理阶段的效率及每条链路、每一节点所采集的数据情况。
在数据预处理阶段,每个模块执行结束之后,会出现以下界面。
(1)实时流量转发
在一段时间范围内,每一链路,每台服务器,在每一分钟,分别采集了多少数据,表征为曲线图。
当只有一台服务器时采集的数据绘制出来只有一条曲线图,若链路中有3台服务器,则下图中将绘制3条曲线图。
如图,在15:41:35到15:43:25这段时间内,大约有25人左右的数据访问量。
(2)系统功能运行情况
测试数据采集及数据预处理阶段的系统运行情况。若系统运行正常,则显示绿色,若系统运行不正常,则显示红色。
(3)各链路流量转发情况
各个服务器的转发情况 ,即每一个节点最后一次的请求量,表征为柱状图。多节点多个服务器表征为多个柱状图。
各链路流量转发情况就是实时流量转发情况的最后一点最后一次变化时数据采集及预处理阶段的运行状况。如图,表示192.168.2.141节点最后一次被访问量为202。
2.数据系统监控功能所传达的信息:数据预处理部分已有多少节点正在运行,每一节点采集了多少数据及它们在一段时间范围内的变化。
二、爬虫识别
第二阶段为爬虫识别阶段(5-1,5-2,6),这一阶段也在后台运行。在首页可以看到性能监控界面。
在该课程的反爬虫项目中,爬虫识别是由 SparkStreaming 来实时进行的。
故在系统功能完成之后,性能监控模块的左侧仪表盘(实时)数字与指针会发生变化,且速度较快。若实时表盘指针与数据不发生改变,则爬虫识别某一阶段存在错误。
1.性能监控
监控数据爬虫识别过程的效率及速度(5-1,5-2,6(图1所示))
三、总结
功能描述:数据预处理、爬虫计算
功能描述:数据预处理、爬虫计算
1.数据分类与处理模块:
(1)读取规则:
①规则起始的时候是在 Mysql 数据库中的,是通过 web 端动态配置的;
②将 Mysql 中的数据读取到 Redis 中使用,提高性能,并提供动态更新功能;
③将 Redis 中的规则同步到广播变量中,达到每个节点都能使用的效果;
在数据处理流程中,3-1读取数据,3-2读取规则,4将数据写入 Kafka 集群,5-1读取数据,5-2读取规则,6将处理后的结果写入 Redis 中,
(2)数据处理:
①拿到规则进行数据的清洗、分类等功能;
②涉及到了部分的指标: cookie 、 agent 、高频 ip ;
2.报表模块:
①报表是通过离线进行统计的,离线的数据来源是通过流式处理打到 hdfs 的;
②报表的指标包含:购票的转化率、查定比、爬虫的规律、系统稳定性;
以上即为反爬虫项目中,企业端的系统监控与性能监控及其所需要实现的功能。