开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建):数据预处-理用例流程介绍】学习笔记与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/670/detail/11622
数据预处-理用例流程介绍
内容介绍:
一、数据预处理模块
二、模块分类处理流程
一、数据预处理模块
下图为数据预处理模块,由统计、脱敏、拆分、分类、解析、结构化、推送、监控等组成,形成了一个完整的处理流程。
二、模块分类处理流程
首先数据读取把数据读取过来,也就是下图中3-1的过程(在kalfka中读取数据到程序中),也就是打在kalfka中的数据。
然后进行第一个模块链路统计,然后进行最核心部分预处理就是清洗、脱敏、拆分、分类、解析、历史爬虫结构化。
然后重新发回 kafka,也就是第四阶段。最后进行系统监控也就是从开始读取到最后的推送的过程进行监控。
监控分别统计出来有多少访问量,当前连接数是多少:
还有链路统计要展现在部署服务器名称、当前活跃连接数、最近三天采集数据量。