《机器学习与数据科学(基于R的统计学习方法)》——2.5 读取CSV文件-阿里云开发者社区

开发者社区> 异步社区> 正文

《机器学习与数据科学(基于R的统计学习方法)》——2.5 读取CSV文件

简介:
+关注继续查看

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第2章,第2.5节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.5 读取CSV文件

可能你遇到的最常见的数据文件类型是逗号分隔值(CSV)文件类型。这是因为CSV是数据科学社区的通用语言,并且很多软件应用导出的数据格式是CSV。同样地,大多数软件应用和环境(如R)能够读取CSV文件。如果你不熟悉一个CSV文件的样子,只要在诸如Windows记事本(Notepad)这样的工具中打开它即可。CSV文件的格式很简单:文件中的每一行代表了一个观测值,每一列代表一个变量(潜在的特征变量)。R能处理第一行包含一个变量名列表的情况,也能处理第一行丢失的情况(在这种情况下,R会任意分配变量名,你可以在之后重新命名变量)。

一旦你得到了CSV文件,第一步就是把它放进工作目录中。为了将CSV的内容读进内存中以便后续在R中使用,你可以用read.table()函数,这是R提供的把文件读入成为表格形式的一般方法,不单单适用于CSV格式。read.csv()的功能基本和read.table()相同,只不过它只能读取CSV格式,而这种格式通常是由Excel这样的电子表格应用导出的。不论使用哪个函数,文件都被读入数据框对象中。为了演示这部分内容,我们将读入前面的停车计时器数据集。

> SFParkingMeters <- read.csv("./data/SFParkingMeters.csv")```
成功将文件读入之后,你可以用两种方法让内容显示在RStudio中,一种是在Workspace窗格中单击数据框的名称SFParkingMeters;另一种在控制台中输入指令view(SFParketingMeters)。图2-2显示了你将看见的结果。你可以像在电子表格中那样浏览数据,不同的是,这里不允许编辑。我们注意到,这个数据集有29 253条观测值和116个变量。如果你只想看这个数据框的前6行,也可以使用head(SFParkingMeters)。
<div style="text-align: center"><img src="https://yqfile.alicdn.com/253085d8d6238b55826ac130d91693fdeae99074.png" width="" height="">
</div>

另一种有用的读入文件的方式是使用file.choose()函数,它可以嵌入到read.table()或者read.csv()中。这种读文件的方式会弹出一个提示框,提醒选择指向计算机中的哪个文件。

SFParkingMeters <- read.csv(file.choose())`

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
一文解析统计学在机器学习中的重要性
本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。
1138 0
OAF_文件系列9_实现OAF解析Excel并读取至数据库JXL
ddd     puroder. webui. poLineExcelImport.javaERP技术讨论群: 288307890 技术交流,技术讨论,欢迎加入 Technology Blog Created By Oracle ERP - 鲍新建
874 0
学习机器学习和数据科学必看的十个资源
步入寒冬,这里有份关于机器学习和数据科学学习的必看资源总结可供学习,快来瞅瞅吧。
2825 0
函数计算部署机器学习遇到的问题和解法
随着 Serverless 的流行,将应用迁移到云上已经成了一种必然的趋势。我们今天来看一下如何将机器学习应用迁移到函数计算上。 1. 本地开发 首先我们看一下本地开发机器学习应用的步骤。我们大概可以将本地开发概括为三个步骤,分别是代码编写,安装依赖,运行调试。
3390 0
Spring Batch示例: 读取CSV文件并写入MySQL数据库
Spring Batch示例: 读取CSV文件并写入MySQL数据库 GitHub版本: https://github.com/kimmking/SpringBatchReferenceCN/blob/master/01_introduction/Spring_Batch_MySQL.
2412 0
C#选择多个文件并读取多个文件数据
原文:C#选择多个文件并读取多个文件数据 版权声明:本文为博主原创文章,转载请附上链接地址。 https://blog.csdn.net/ld15102891672/article/details/80586097 ...
918 0
Kaggle CTO 力荐:从 Kaggle 历史数据看机器学习竞赛趋势
Kaggle 是全球最大数据建模和数据分析竞赛平台,也是检验个人水平的最佳舞台。现如今,随着社会对机器学习人才的需求提高,在 Kaggle 上刷到过前 5%、10% 也成了应聘的一个硬指标。考虑到 Kaggle 的权威性和受欢迎度,这么多年来,这个平台的数据应该能体现整个数据科学领域的发展轨迹。
1972 0
+关注
异步社区
异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
12049
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载