《从Excel到R 数据分析进阶指南》一第3章 数据表清洗3.1 处理空值(删除或填充)

简介:

本节书摘来自异步社区《从Excel到R 数据分析进阶指南》一书中的第3章,第3.1节,作者 王彦平(蓝鲸),更多章节内容可以访问云栖社区“异步社区”公众号查看

第3章 数据表清洗

从Excel到R 数据分析进阶指南
本章是对数据表中的问题进行清洗,主要内容包括对空值、大小写问题、数据格式和重复值的处理。这里不包含对数据间的逻辑验证。

3.1 处理空值(删除或填充)

我们在创建数据表的时候,在price字段中故意设置了几个NA值。对于空值的处理方式有很多种,既可以直接删除包含空值的数据,也可以对空值进行填充,比如用0填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。

Excel中可以通过“查找和替换”功能对空值进行处理,将空值统一替换为0或均值。也可以通过“定位”空值来实现。


4d148f790d5b567e3b8cc75c1b4f475c7eea58b1

R中处理空值的方法比较灵活,既可以使用 na.omit()函数用来删除数据表中包含空值的数据,也可以用特定的值对空值进行填充。下面的代码和结果中可以看到使用na.omit()函数后,包含NA值的两个字段已经不见了。返回的是一个不包含空值的数据表。

#删除包含空值的行
df_na<-na.omit(df)


c185d0155d097933b20b3844a6c7385f345be536

除此之外也可以使用数字对空值进行填充,下面的代码使用0对空值字段进行填充。

#将空值填充为0
df[is.na(df)] <- 0


b2ae4643d463db341f69c08be027de46c6f8107a

我们继续使用填充的方式来处理空值,使用price列的均值来填充NA字段,在要填充的数值中使用mean()函数先计算price列当前的均值,然后使用这个均值对NA进行填充。可以看到两个空值字段显示为3526。

#将空值填充为均值
df[is.na(df)] <- mean(df_na$price)


de65582130fa6b881606d5ec48455b3a1f89763e
相关文章
|
机器学习/深度学习 人工智能 数据可视化
AI时代Excel数据分析提升之道
AI时代Excel数据分析提升之道
513 0
|
14天前
|
数据处理
Excel VBA 自动填充空白并合并相同值的解决方案
在Excel中,常需将一列数据中的空白单元格用上方最近的非空值填充,并合并连续相同值。本VBA宏方案自动完成此操作,包含代码实现、使用方法及注意事项。通过简单步骤添加宏,一键处理数据,提升效率,确保准确性。适用于频繁处理类似数据的用户。
23 7
|
8月前
|
数据挖掘 数据安全/隐私保护 Python
【Python数据分析】<数据分析工具>基于Excel的数据分析
【1月更文挑战第22天】【Python数据分析】<数据分析工具>基于Excel的数据分析
|
5月前
|
数据挖掘 索引 Python
数据分析缺失值处理(Missing Values)——删除法、填充法、插值法
数据分析缺失值处理(Missing Values)——删除法、填充法、插值法
257 2
|
5月前
|
数据采集 数据可视化 数据挖掘
【python】python知名品牌调查问卷数据分析可视化(源码+调查数据表)【独一无二】
【python】python知名品牌调查问卷数据分析可视化(源码+调查数据表)【独一无二】
120 1
|
5月前
|
Python
【Python】解决pandas读取excel,以0向前填充的数字会变成纯数字
本文介绍了两种解决Python使用pandas库读取Excel时,数字前填充的0丢失问题的方法:一是在读取时指定列以字符串格式读取,二是在Excel中预先将数值转换为文本格式。
354 0
【Python】解决pandas读取excel,以0向前填充的数字会变成纯数字
|
5月前
Excel 查找替换 -- 快速填充
Excel 查找替换 -- 快速填充
32 0
|
6月前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本
|
6月前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本
|
7月前
|
人工智能 自然语言处理 安全
ChatGPT高效搞定Excel数据分析
ChatGPT高效搞定Excel数据分析
148 0