《机器学习与数据科学(基于R的统计学习方法)》——2.5 读取CSV文件

简介:

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第2章,第2.5节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.5 读取CSV文件

可能你遇到的最常见的数据文件类型是逗号分隔值(CSV)文件类型。这是因为CSV是数据科学社区的通用语言,并且很多软件应用导出的数据格式是CSV。同样地,大多数软件应用和环境(如R)能够读取CSV文件。如果你不熟悉一个CSV文件的样子,只要在诸如Windows记事本(Notepad)这样的工具中打开它即可。CSV文件的格式很简单:文件中的每一行代表了一个观测值,每一列代表一个变量(潜在的特征变量)。R能处理第一行包含一个变量名列表的情况,也能处理第一行丢失的情况(在这种情况下,R会任意分配变量名,你可以在之后重新命名变量)。

一旦你得到了CSV文件,第一步就是把它放进工作目录中。为了将CSV的内容读进内存中以便后续在R中使用,你可以用read.table()函数,这是R提供的把文件读入成为表格形式的一般方法,不单单适用于CSV格式。read.csv()的功能基本和read.table()相同,只不过它只能读取CSV格式,而这种格式通常是由Excel这样的电子表格应用导出的。不论使用哪个函数,文件都被读入数据框对象中。为了演示这部分内容,我们将读入前面的停车计时器数据集。

> SFParkingMeters <- read.csv("./data/SFParkingMeters.csv")```
成功将文件读入之后,你可以用两种方法让内容显示在RStudio中,一种是在Workspace窗格中单击数据框的名称SFParkingMeters;另一种在控制台中输入指令view(SFParketingMeters)。图2-2显示了你将看见的结果。你可以像在电子表格中那样浏览数据,不同的是,这里不允许编辑。我们注意到,这个数据集有29 253条观测值和116个变量。如果你只想看这个数据框的前6行,也可以使用head(SFParkingMeters)。
<div style="text-align: center"><img src="https://yqfile.alicdn.com/253085d8d6238b55826ac130d91693fdeae99074.png" width="" height="">
</div>

另一种有用的读入文件的方式是使用file.choose()函数,它可以嵌入到read.table()或者read.csv()中。这种读文件的方式会弹出一个提示框,提醒选择指向计算机中的哪个文件。

SFParkingMeters <- read.csv(file.choose())`

相关文章
|
数据采集 机器学习/深度学习 存储
【机器学习】数据清洗——基于Numpy库的方法删除重复点
【机器学习】数据清洗——基于Numpy库的方法删除重复点
497 1
|
数据采集 机器学习/深度学习 Python
【机器学习】数据清洗——基于Pandas库的方法删除重复点
【机器学习】数据清洗——基于Pandas库的方法删除重复点
697 1
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
567 2
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
492 1
|
机器学习/深度学习 数据采集 算法
【Python机器学习】过拟合及其抑制方法讲解及实战(图文解释 附源码)
【Python机器学习】过拟合及其抑制方法讲解及实战(图文解释 附源码)
263 0
【Python机器学习】过拟合及其抑制方法讲解及实战(图文解释 附源码)
|
机器学习/深度学习 算法 Python
【Python机器学习】神经网络中常用激活函数、损失函数、优化方法(图文解释 附源码)
【Python机器学习】神经网络中常用激活函数、损失函数、优化方法(图文解释 附源码)
644 0
|
机器学习/深度学习 Python
【Python机器学习】全连接层与非线性回归、防止过拟合方法的讲解及实战( 附源码)
【Python机器学习】全连接层与非线性回归、防止过拟合方法的讲解及实战( 附源码)
599 0
|
机器学习/深度学习 存储 Linux
【机器学习 Azure Machine Learning】使用VS Code登录到Linux VM上 (Remote-SSH), 及可直接通过VS Code编辑VM中的文件
【机器学习 Azure Machine Learning】使用VS Code登录到Linux VM上 (Remote-SSH), 及可直接通过VS Code编辑VM中的文件
213 4
|
机器学习/深度学习 人工智能 对象存储
人工智能平台PAI产品使用合集之大文件如何下载下来
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 数据采集 存储
使用机器学习算法进行文本分类的方法与实践
本文将介绍使用机器学习算法进行文本分类的方法与实践。通过分析文本特征、选择合适的机器学习算法和构建有效的训练模型,可以实现准确和高效的文本分类任务。我们还将探讨如何处理文本数据预处理、特征提取和模型评估等方面的关键问题,以帮助读者更好地应用机器学习技术解决文本分类挑战。