数据预处理模块梳理|学习笔记

简介: 快速学习数据预处理模块梳理

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理模块梳理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11640


数据预处理模块梳理


之前已经把链路统计功能做出来了,至于数据是怎样从前面的代码展示出来,也已经看到了,那到这里链路统计功能也已经完全结束了,也就是,在数据预处理这十个模块中,第一个模块列入统计,这个模块已经完成了。除了这个模块,还有其他几个模块有清洗脱敏。

image.png

先把这个流程理一下,预处理以前的链路统计已经完成了,预处理还包括清洗,脱敏,拆分,分类,还有数据解析,历史爬虫判断,数据结构化,再往后就是推送,推送到 kafka 后面,最后再做一个系统监控作用。

就这几个模块,现在把要做的这几个模块添加到程序里面,做一个小小的记录,在这里列一下这里链路统计功能,算是第一个模块,第一个模块链路统计功能已经做完了。第二个功能,要做的是数据清洗,接下来第三个是数据脱敏,这里脱敏又分为3-1:身份证和手机号码脱敏。再往后是数据拆分功能,拆分完就是数据的分类,这里分类又继续对她进行深化,分类分为5-1,分为两类,一类是单程或者往返,第二类是国内国外查询预订,也就是飞行类型与操作类型,飞行类型分为国内和国际,操作类型,分为查询和核定。分类分完,接下来就是数据的解析,就是第六个模块,第六个模块也分为两类,第一类叫查询类数据的解析,第二类,教育定类数据的解析。接下来是第七个部分,解析后是历史爬虫判断,就是数据是否在历史的爬虫里面出现过。第八个就是数据结构化的操作,第九个就是数据的推送,而数据推送里面又分为两类,一是查询类数据的推送,还有一个叫预订类的推送。推送完最后一个模块就是数据的监控,指的是数据预处理的监控功能。

数据预处理一共是要做十件事,第一件事是链式统计功能,第二个是数据清洗功能,第三个是脱敏功能,第四个就是拆分功能,接下来就是数据的解析,历史爬虫判断,数据结构化,数据推送,系统监控功能等十个模块,数据推送和系统监控功能应该放在循环会的外面,现在先把数据预处理的模块先简单的列一下。

相关文章
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
86 0
|
机器学习/深度学习 编解码 算法
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
作为系列文章的第一篇解读,本文主要是从整体框架构建角度来解析,不会涉及到具体算法和代码,希望通过本文讲解: - MMDetection 整体构建流程和思想 - 目标检测算法核心组件划分 - 目标检测核心组件功能
798 0
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
|
12月前
|
分布式计算 运维 JavaScript
大数据预处理工具的综合使用
大数据预处理工具的综合使用
量化现货交易系统开发(功能细化及源码分析)
量化现货交易系统开发(功能细化及源码分析)
RFM用户分层模型|原理+Python全流程实现
详细解读如何使用RFM模型进行用户分层(附代码)
RFM用户分层模型|原理+Python全流程实现
|
数据采集 监控 前端开发
数据预处理总结—用例及流程|学习笔记
快速学习数据预处理总结—用例及流程
647 0
数据预处理总结—用例及流程|学习笔记
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
413 0
数据预处理-数据清洗需求分析|学习笔记
|
机器学习/深度学习 人工智能 算法
机器学习算法的一般流程|学习笔记
快速学习机器学习算法的一般流程
141 0
机器学习算法的一般流程|学习笔记
|
数据采集 消息中间件 监控
数据预处理总结﹣代码总结|学习笔记
快速学习数据预处理总结﹣代码总结
92 0
数据预处理总结﹣代码总结|学习笔记
|
消息中间件 数据采集 JSON
数据预处理-封装ProcessedData下|学习笔记
快速学习数据预处理-封装ProcessedData下
102 0
数据预处理-封装ProcessedData下|学习笔记