《从Excel到R 数据分析进阶指南》一第3章 数据表清洗3.1 处理空值(删除或填充)

简介:

本节书摘来自异步社区《从Excel到R 数据分析进阶指南》一书中的第3章,第3.1节,作者 王彦平(蓝鲸),更多章节内容可以访问云栖社区“异步社区”公众号查看

第3章 数据表清洗

从Excel到R 数据分析进阶指南
本章是对数据表中的问题进行清洗,主要内容包括对空值、大小写问题、数据格式和重复值的处理。这里不包含对数据间的逻辑验证。

3.1 处理空值(删除或填充)

我们在创建数据表的时候,在price字段中故意设置了几个NA值。对于空值的处理方式有很多种,既可以直接删除包含空值的数据,也可以对空值进行填充,比如用0填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。

Excel中可以通过“查找和替换”功能对空值进行处理,将空值统一替换为0或均值。也可以通过“定位”空值来实现。


4d148f790d5b567e3b8cc75c1b4f475c7eea58b1

R中处理空值的方法比较灵活,既可以使用 na.omit()函数用来删除数据表中包含空值的数据,也可以用特定的值对空值进行填充。下面的代码和结果中可以看到使用na.omit()函数后,包含NA值的两个字段已经不见了。返回的是一个不包含空值的数据表。

#删除包含空值的行
df_na<-na.omit(df)


c185d0155d097933b20b3844a6c7385f345be536

除此之外也可以使用数字对空值进行填充,下面的代码使用0对空值字段进行填充。

#将空值填充为0
df[is.na(df)] <- 0


b2ae4643d463db341f69c08be027de46c6f8107a

我们继续使用填充的方式来处理空值,使用price列的均值来填充NA字段,在要填充的数值中使用mean()函数先计算price列当前的均值,然后使用这个均值对NA进行填充。可以看到两个空值字段显示为3526。

#将空值填充为均值
df[is.na(df)] <- mean(df_na$price)


de65582130fa6b881606d5ec48455b3a1f89763e
相关文章
|
SQL 分布式计算 数据挖掘
从Excel到高级工具:数据分析进阶指南
从Excel到高级工具:数据分析进阶指南
559 54
|
机器学习/深度学习 数据采集 数据可视化
Python数据分析,别再死磕Excel了!
Python数据分析,别再死磕Excel了!
502 2
|
人工智能 数据可视化 前端开发
Probly:开源 AI Excel表格工具,交互式生成数据分析结果与可视化图表
Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具,支持在浏览器中运行 Python 代码,提供交互式电子表格、数据可视化和智能分析建议,适合需要强大数据分析功能又希望操作简便的用户。
1794 2
|
SQL 数据挖掘 大数据
Excel 后,我们需要怎样的数据分析软件
在现代商业中,数据分析至关重要,但传统BI工具和编程语言如Python、SQL等各有局限。Excel虽交互性强,但面对复杂计算和大数据时力不从心。esProc Desktop作为后Excel时代的数据分析神器,采用SPL语言,具备强大的表格计算能力和天然的大数据支持,可显著降低复杂计算难度。其强交互性、简短代码和内嵌Excel插件功能,让业务人员轻松完成多步骤交互式计算,是理想的数据分析工具。现提供免费使用及丰富学习资源。
|
数据处理
Excel VBA 自动填充空白并合并相同值的解决方案
在Excel中,常需将一列数据中的空白单元格用上方最近的非空值填充,并合并连续相同值。本VBA宏方案自动完成此操作,包含代码实现、使用方法及注意事项。通过简单步骤添加宏,一键处理数据,提升效率,确保准确性。适用于频繁处理类似数据的用户。
1254 7
|
数据挖掘 索引 Python
数据分析缺失值处理(Missing Values)——删除法、填充法、插值法
数据分析缺失值处理(Missing Values)——删除法、填充法、插值法
2833 2
|
Python
【Python】解决pandas读取excel,以0向前填充的数字会变成纯数字
本文介绍了两种解决Python使用pandas库读取Excel时,数字前填充的0丢失问题的方法:一是在读取时指定列以字符串格式读取,二是在Excel中预先将数值转换为文本格式。
1336 0
【Python】解决pandas读取excel,以0向前填充的数字会变成纯数字
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本
Excel 查找替换 -- 快速填充
Excel 查找替换 -- 快速填充
158 0