本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第3章,第3.7节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.7 舍弃数据
在之前的教程中,我们介绍了如何修改和过滤数据集。这些步骤基本上涵盖了数据预处理和数据准备的主要过程。但是,我们还想找出数据集中的坏数据。那些坏数据或者不想要的数据应该丢弃,避免生成误导的结果。这里,我们会介绍一些移除无用数据的实用方法。
准备工作
按照3.3节“转换数据类型”教程,把导入数据的每个属性转换成合适的数据类型。同时按照3.2节“重命名数据变量”中的步骤,命名employees和salaries数据集的列名。
实现步骤
运行原理
舍弃行数据的想法与数据过滤很类似,你只需要在过滤阶段给出要舍弃行的反向索引,然后可以使用过滤后的数据替换原来的数据。由于last_name列是第5个索引,你可以在方括号中的逗号右边给定-5来移除这个属性。除了重新赋予非空值,你也可以给要舍弃的属性指定NULL值。要移除行,你可以在方括号的逗号左边放置反向索引,然后用过滤的数据子集替换原来的数据集。
更多技能
除了使用数据过滤或给具体属性指定NULL值,你也可以使用函数within移除不需要的属性。所需的操作只是在函数rm中放置不需要的属性名称: