数据预处理模块梳理|学习笔记

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: 快速学习数据预处理模块梳理

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理模块梳理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11640


数据预处理模块梳理


之前已经把链路统计功能做出来了,至于数据是怎样从前面的代码展示出来,也已经看到了,那到这里链路统计功能也已经完全结束了,也就是,在数据预处理这十个模块中,第一个模块列入统计,这个模块已经完成了。除了这个模块,还有其他几个模块有清洗脱敏。

image.png

先把这个流程理一下,预处理以前的链路统计已经完成了,预处理还包括清洗,脱敏,拆分,分类,还有数据解析,历史爬虫判断,数据结构化,再往后就是推送,推送到 kafka 后面,最后再做一个系统监控作用。

就这几个模块,现在把要做的这几个模块添加到程序里面,做一个小小的记录,在这里列一下这里链路统计功能,算是第一个模块,第一个模块链路统计功能已经做完了。第二个功能,要做的是数据清洗,接下来第三个是数据脱敏,这里脱敏又分为3-1:身份证和手机号码脱敏。再往后是数据拆分功能,拆分完就是数据的分类,这里分类又继续对她进行深化,分类分为5-1,分为两类,一类是单程或者往返,第二类是国内国外查询预订,也就是飞行类型与操作类型,飞行类型分为国内和国际,操作类型,分为查询和核定。分类分完,接下来就是数据的解析,就是第六个模块,第六个模块也分为两类,第一类叫查询类数据的解析,第二类,教育定类数据的解析。接下来是第七个部分,解析后是历史爬虫判断,就是数据是否在历史的爬虫里面出现过。第八个就是数据结构化的操作,第九个就是数据的推送,而数据推送里面又分为两类,一是查询类数据的推送,还有一个叫预订类的推送。推送完最后一个模块就是数据的监控,指的是数据预处理的监控功能。

数据预处理一共是要做十件事,第一件事是链式统计功能,第二个是数据清洗功能,第三个是脱敏功能,第四个就是拆分功能,接下来就是数据的解析,历史爬虫判断,数据结构化,数据推送,系统监控功能等十个模块,数据推送和系统监控功能应该放在循环会的外面,现在先把数据预处理的模块先简单的列一下。

相关文章
|
机器学习/深度学习 编解码 算法
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
作为系列文章的第一篇解读,本文主要是从整体框架构建角度来解析,不会涉及到具体算法和代码,希望通过本文讲解: - MMDetection 整体构建流程和思想 - 目标检测算法核心组件划分 - 目标检测核心组件功能
984 0
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
95 0
|
6月前
|
测试技术 uml 开发者
使用UML进行系统建模:深入解析与实践指南
【8月更文挑战第19天】UML作为一种强大的建模语言,为系统建模提供了全面的支持。通过合理使用UML,可以显著提高软件开发的效率和质量,促进团队成员之间的有效沟通。然而,UML并非万能,它需要根据项目的具体情况进行灵活应用和调整。希望本文能为你在使用UML进行系统建模时提供一些有益的参考和指导。
|
7月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
110 2
RFM用户分层模型|原理+Python全流程实现
详细解读如何使用RFM模型进行用户分层(附代码)
RFM用户分层模型|原理+Python全流程实现
|
机器学习/深度学习 算法 数据库
PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]
本项目对PGL图学习系列项目进行整合方便大家后续学习,同时对图学习相关技术和业务落地侧进行归纳总结,以及对图网络开放数据集很多学者和机构发布了许多与图相关的任务。
PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]
|
数据采集 监控 前端开发
数据预处理总结—用例及流程|学习笔记
快速学习数据预处理总结—用例及流程
1025 0
数据预处理总结—用例及流程|学习笔记
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
587 0
数据预处理-数据清洗需求分析|学习笔记
|
数据采集 消息中间件 分布式计算
数据预处理-数据清洗-实现思路|学习笔记
快速学习数据预处理-数据清洗-实现思路
229 0
数据预处理-数据清洗-实现思路|学习笔记
|
机器学习/深度学习 人工智能 算法
机器学习算法的一般流程|学习笔记
快速学习机器学习算法的一般流程
183 0
机器学习算法的一般流程|学习笔记

相关实验场景

更多