本节书摘来自华章计算机《数据科学:R语言实现》一书中的第3章,第3.7节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.7 舍弃数据
在之前的教程中,我们介绍了如何修改和过滤数据集。这些步骤基本上涵盖了数据预处理和数据准备的主要过程。但是,我们还想找出数据集中的坏数据。那些坏数据或者不想要的数据应该丢弃,避免生成误导的结果。这里,我们会介绍一些移除无用数据的实用方法。
准备工作
按照3.3节“转换数据类型”教程,把导入数据的每个属性转换成合适的数据类型。同时按照3.2节“重命名数据变量”中的步骤,命名employees和salaries数据集的列名。
实现步骤
执行下列步骤,舍弃当前数据集的一个属性。
1.首先,你可以在过滤条件中排除last_name,舍弃该列:
2.或者,你可以给舍弃的属性分配NULL值:
3.要舍弃行,你可以通过反向索引,指定希望舍弃的行:
运行原理
舍弃行数据的想法与数据过滤很类似,你只需要在过滤阶段给出要舍弃行的反向索引,然后可以使用过滤后的数据替换原来的数据。由于last_name列是第5个索引,你可以在方括号中的逗号右边给定-5来移除这个属性。除了重新赋予非空值,你也可以给要舍弃的属性指定NULL值。要移除行,你可以在方括号的逗号左边放置反向索引,然后用过滤的数据子集替换原来的数据集。
更多技能
除了使用数据过滤或给具体属性指定NULL值,你也可以使用函数within移除不需要的属性。所需的操作只是在函数rm中放置不需要的属性名称: