数据清洗_转换完成|学习笔记

简介: 快速学习数据清洗_转换完成

开发者学堂课程【大数据 Spark2020版(知识精讲与实战演练)第四阶段 数据清洗_转换完成】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/691/detail/12115


数据清洗_转换完成


转换完成

针对异常处理,通过 safe 方法返回 either 对象之后,该如何处理 either 对象。

进入 idea 中

taxiRaw.rdd.map(safe(parse))

map 返回一个 rdd,命名为 taxiParsed,类型是 either,either 中正确是情况是 trip,不正确的情况是 (Row,Exception)

用 either 对象是因为可以对 taxi 进行处理,用 filter,返回 e,map 一下,拿到一个 either,either 直接 right.get 转成 right,返回的结果中是所有有问题的数,可以下划线1,get._1

//4、转换操作

val taxiParsed: RDo[Either[Trip,(Row,Exception)]] = taxiRaw .rdd.map(safe(parse))

//可以通过如下方式来过滤出来所有异常的 row

// taxiparsed.filter(e => e.isRight)

// .map(e => e.right.get._1)

通过 either 对象的形式,较为方便找到出异常的 row

如果拿到所有出异常的 row 作为一个需求,除了 either,其他都比较复杂

rdd 是一个 either 类型,不可能用 either 类型的 rdd 直接使用,先过滤出问题的行,去掉或转换出问题的行

用 taxiParsed 进行一个转换,将所有的 either 转成 left,如果返回的 either 是一个 right 类型,通过 left.get 是错的,直接.toDS,如果报错说明中间有问题,没有报错说明中间没问题。

拿到 taxiDood,taxiDood 是一个 trip 类型

val taxiGood: Dataset[Trip= taxiParsed.map(either => either.left.get ).toDS()

数据清洗与数据转化完成

数据清洗是对报错、对空值的处理,数据转化是 parse 方法将数据。进行转换

拿到最终结果,任务完成

相关文章
|
6月前
|
数据采集 数据可视化 数据挖掘
数据清洗有什么方式
数据清洗有什么方式
|
16天前
|
数据采集 数据可视化 Python
改进分析的五种鲜为人知的数据转换技术
改进分析的五种鲜为人知的数据转换技术
|
6月前
|
数据采集 数据挖掘 大数据
数据处理利器:使用Pandas进行数据清洗与转换
【4月更文挑战第12天】在大数据时代,Pandas是Python数据分析的关键工具,提供高效的数据清洗和转换功能。本文介绍了如何使用Pandas处理缺失值(删除或填充)、异常值(Z-Score法和IQR法)以及重复值(检测和删除)。此外,还涵盖了数据转换,包括数据类型转换、数据标准化(Min-Max和Z-Score)以及类别数据的one-hot编码。通过学习这些方法,可以为数据分析和挖掘奠定坚实基础。
173 0
|
JSON 数据可视化 数据挖掘
python数据可视化开发(2):pandas读取Excel的数据格式处理(数据读取、指定列数据、DataFrame转json、数学运算、透视表运算输出)
python数据可视化开发(2):pandas读取Excel的数据格式处理(数据读取、指定列数据、DataFrame转json、数学运算、透视表运算输出)
374 0
|
5月前
|
数据采集 存储 数据可视化
Pandas高级教程:数据清洗、转换与分析
Pandas是Python的数据分析库,提供Series和DataFrame数据结构及数据分析工具,便于数据清洗、转换和分析。本教程涵盖Pandas在数据清洗(如缺失值、重复值和异常值处理)、转换(数据类型转换和重塑)和分析(如描述性统计、分组聚合和可视化)的应用。通过学习Pandas,用户能更高效地处理和理解数据,为数据分析任务打下基础。
604 3
|
6月前
|
数据采集 数据挖掘 数据格式
探讨 DataFrame 的高级功能,如数据清洗、转换和分组操作
【5月更文挑战第19天】本文探讨了DataFrame的高级功能,包括数据清洗、转换和分组操作。在数据清洗时,使用fillna处理缺失值,设定阈值或统计方法处理异常值。数据转换涉及标准化和编码,如将分类数据转为数值。分组操作用于按特定列聚合计算,支持多级分组和自定义聚合函数。掌握这些技能能有效处理和分析数据,为决策提供支持。
88 2
|
6月前
|
数据采集 JSON 数据挖掘
利用Python实现自动化数据清洗和转换
数据清洗和转换是数据分析的重要步骤。在数据分析工作中,我们常常需要处理不规范、重复、缺失或错误的数据。本文介绍如何使用Python编程语言实现自动化数据清洗和转换,为数据分析工作提供高效的支持。
|
数据采集 算法 Dubbo
数据清洗_数据转换|学习笔记
快速学习数据清洗_数据转换
161 0
数据清洗_数据转换|学习笔记
|
算法 数据挖掘 开发者
数据转换| 学习笔记
快速学习数据转换。
数据转换| 学习笔记
|
数据采集 大数据 开发者
数据预处理—数据清洗—数据过滤功能代码|学习笔记
快速学习数据预处理—数据清洗—数据过滤功能代码
345 0
数据预处理—数据清洗—数据过滤功能代码|学习笔记