数据预处理模块梳理|学习笔记

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 快速学习数据预处理模块梳理

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理模块梳理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11640


数据预处理模块梳理


之前已经把链路统计功能做出来了,至于数据是怎样从前面的代码展示出来,也已经看到了,那到这里链路统计功能也已经完全结束了,也就是,在数据预处理这十个模块中,第一个模块列入统计,这个模块已经完成了。除了这个模块,还有其他几个模块有清洗脱敏。

image.png

先把这个流程理一下,预处理以前的链路统计已经完成了,预处理还包括清洗,脱敏,拆分,分类,还有数据解析,历史爬虫判断,数据结构化,再往后就是推送,推送到 kafka 后面,最后再做一个系统监控作用。

就这几个模块,现在把要做的这几个模块添加到程序里面,做一个小小的记录,在这里列一下这里链路统计功能,算是第一个模块,第一个模块链路统计功能已经做完了。第二个功能,要做的是数据清洗,接下来第三个是数据脱敏,这里脱敏又分为3-1:身份证和手机号码脱敏。再往后是数据拆分功能,拆分完就是数据的分类,这里分类又继续对她进行深化,分类分为5-1,分为两类,一类是单程或者往返,第二类是国内国外查询预订,也就是飞行类型与操作类型,飞行类型分为国内和国际,操作类型,分为查询和核定。分类分完,接下来就是数据的解析,就是第六个模块,第六个模块也分为两类,第一类叫查询类数据的解析,第二类,教育定类数据的解析。接下来是第七个部分,解析后是历史爬虫判断,就是数据是否在历史的爬虫里面出现过。第八个就是数据结构化的操作,第九个就是数据的推送,而数据推送里面又分为两类,一是查询类数据的推送,还有一个叫预订类的推送。推送完最后一个模块就是数据的监控,指的是数据预处理的监控功能。

数据预处理一共是要做十件事,第一件事是链式统计功能,第二个是数据清洗功能,第三个是脱敏功能,第四个就是拆分功能,接下来就是数据的解析,历史爬虫判断,数据结构化,数据推送,系统监控功能等十个模块,数据推送和系统监控功能应该放在循环会的外面,现在先把数据预处理的模块先简单的列一下。

相关文章
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
188 0
|
机器学习/深度学习 编解码 算法
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
作为系列文章的第一篇解读,本文主要是从整体框架构建角度来解析,不会涉及到具体算法和代码,希望通过本文讲解: - MMDetection 整体构建流程和思想 - 目标检测算法核心组件划分 - 目标检测核心组件功能
902 0
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
|
4月前
|
监控 Kubernetes 测试技术
概括模型开发部署流程
**模型部署流程概览:**训练完成的大型语言模型经验证评估,进行剪枝量化后导出为标准格式。封装成API,部署到云服务器,考虑GPU资源与安全。通过Docker或Kubernetes管理,集成后端服务,确保负载均衡和安全。监控性能,执行A/B测试和灰度发布,持续优化与维护。每个步骤涉及团队协作与线上稳定性。
47 1
|
4月前
|
数据采集 机器学习/深度学习 数据挖掘
利用Python实现高效的数据清洗与预处理流程
本文旨在探讨如何使用Python编程语言及其强大的数据处理库(如pandas、numpy等)来构建一个高效且灵活的数据清洗与预处理流程。与常规的数据清洗方法不同,本文不仅关注于传统的缺失值填充、异常值处理、数据类型转换等步骤,还引入了数据质量评估、数据特征选择以及自动化处理流程的设计等高级主题。通过实际案例和代码演示,本文将为读者提供一套完整的数据清洗与预处理解决方案,助力数据分析师和数据科学家在数据探索阶段更加高效、准确地处理数据。
|
5月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
RFM用户分层模型|原理+Python全流程实现
详细解读如何使用RFM模型进行用户分层(附代码)
RFM用户分层模型|原理+Python全流程实现
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
508 0
数据预处理-数据清洗需求分析|学习笔记
|
机器学习/深度学习 人工智能 算法
机器学习算法的一般流程|学习笔记
快速学习机器学习算法的一般流程
166 0
机器学习算法的一般流程|学习笔记
|
数据采集 大数据 数据处理
数据预处理-封装 ProcessedData 上|学习笔记
快速学习数据预处理-封装 ProcessedData 上
196 0
数据预处理-封装 ProcessedData 上|学习笔记
|
消息中间件 数据采集 JSON
数据预处理-封装ProcessedData下|学习笔记
快速学习数据预处理-封装ProcessedData下
147 0
数据预处理-封装ProcessedData下|学习笔记