本节书摘来自华章出版社《机器学习与R语言(原书第2版)》一书中的第2章,第2.4节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.4 总结
在本章中,我们学习了在R中管理数据的基础。从深入剖析用来存储不同类型数据的数据结构开始。R数据的基本结构是向量,它扩展和组合成更复杂的数据结构,比如,列表和数据框。数据框是与数据集概念相联系的R数据结构,数据框内同时有特征和案例。R提供了从电子表格类的数据文件读取数据和把数据框写入电子表格类的数据文件的函数。
然后,我们探索了一个包含二手车价格的真实世界数据集。我们使用常用的中心趋势和分散程度统计量来检验数值变量,用散点图来可视化价格和里程表读数。我们用表格检验名义变量。在检验二手车数据时,我们采用一种可以用来理解所有数据集的探索分析过程。整本书的其他项目都要求这些技能。
既然我们花了些时间来理解R中数据管理的基础,我们就已经准备好了使用机器学习来解决真实世界的问题。第3章,我们将用最近邻方法处理我们的第一个分类任务。