数据清洗_剪除反常数据|学习笔记

简介: 快速学习数据清洗_剪除反常数据

开发者学堂课程【大数据 Spark2020版(知识精讲与实战演练)第四阶段 数据清洗_剪除反常数据】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/691/detail/12117


数据清洗_剪除反常数据


剪除反常数据

第五步绘制时长在直方图,第六步根据直方图的显示,查看数据分布后,剪除反常数据。

数据分析于处理的过程是不断探索、思考、查找特征的过程,其实数据集中还有很多问题,在绝大多数的数据分析、数据挖掘等工作绝大多数都在进行数据清洗,数据清洗后得到结果快,但数据清洗的过程比较复杂,要不断查看统计的图那些数据有问题。

根据直方图显示,剪除一些数据

直接注册 UDF,使用 sql 语句,查找范围内的数据

通过 spark.udf 注册到 sql、语句中,register 注册 hours 函数,在taxiFood数据集中进行 where 操作,在 where 操作中执行 hours,hours 传入两列数据,pickUpTime 和 dropUpTime,hours 结果严格按照直方图是1小时以内,在真正的数据集中,0-3小时分布都可以,BETWEEN 0-3,只过滤出0-3小时以内,生成新的数据集,taxiClean,查看数据

运行

image.png

数据已获取,针对数据进行相应的操作,计算时发现 pickUpTime 于 dropUpTime 差值变为3小时以内

数据清洗正式结束。

相关文章
|
7月前
|
数据采集 数据可视化 数据挖掘
数据清洗有什么方式
数据清洗有什么方式
|
3月前
|
数据采集 数据可视化 数据挖掘
如何进行有效的数据清洗?
如何进行有效的数据清洗?
152 3
|
3月前
|
数据采集 存储 数据可视化
数据清洗
数据清洗
116 1
|
7月前
|
数据采集 监控 数据挖掘
提高数据清洗效果的关键
【4月更文挑战第2天】提高数据清洗效果的关键
57 2
|
7月前
|
数据采集 Python
数据清洗是数据预处理的重要步骤
数据清洗是数据预处理的重要步骤
92 0
|
数据采集 机器学习/深度学习 存储
ETL工程师必知的数据清洗方法【最全】
ETL工程师必知的数据清洗方法【最全】
|
数据采集 数据挖掘 Python
【Pandas数据分析5】数据清洗
【Pandas数据分析5】数据清洗
111 0
|
数据采集 算法 Dubbo
数据清洗_数据转换|学习笔记
快速学习数据清洗_数据转换
164 0
数据清洗_数据转换|学习笔记
|
数据采集 大数据 开发者
数据预处理—数据清洗—数据过滤功能代码|学习笔记
快速学习数据预处理—数据清洗—数据过滤功能代码
354 0
数据预处理—数据清洗—数据过滤功能代码|学习笔记
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
546 0
数据预处理-数据清洗需求分析|学习笔记