开发者学堂课程【大数据 Spark2020版(知识精讲与实战演练)第四阶段: 数据清洗_剪除反常数据】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/691/detail/12117
数据清洗_剪除反常数据
剪除反常数据
第五步绘制时长在直方图,第六步根据直方图的显示,查看数据分布后,剪除反常数据。
数据分析于处理的过程是不断探索、思考、查找特征的过程,其实数据集中还有很多问题,在绝大多数的数据分析、数据挖掘等工作绝大多数都在进行数据清洗,数据清洗后得到结果快,但数据清洗的过程比较复杂,要不断查看统计的图那些数据有问题。
根据直方图显示,剪除一些数据
直接注册 UDF,使用 sql 语句,查找范围内的数据
通过 spark.udf 注册到 sql、语句中,register 注册 hours 函数,在taxiFood数据集中进行 where 操作,在 where 操作中执行 hours,hours 传入两列数据,pickUpTime 和 dropUpTime,hours 结果严格按照直方图是1小时以内,在真正的数据集中,0-3小时分布都可以,BETWEEN 0-3,只过滤出0-3小时以内,生成新的数据集,taxiClean,查看数据
运行
数据已获取,针对数据进行相应的操作,计算时发现 pickUpTime 于 dropUpTime 差值变为3小时以内
数据清洗正式结束。