开发者社区> 庄闪闪> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

R数据科学|第八章内容介绍

简介: 本文将介绍如何使用readr包将平面文件加载到 R 中,readr 也是 tidyverse 的核心 R包之一。
+关注继续查看

使用readr进行数据导入


本文将介绍如何使用readr包将平面文件加载到 R 中,readr 也是 tidyverse 的核心 R包之一。


基本函数

函数功能
read_csv读取逗号分隔文件
read_csv2读取分号分隔文件
read_tsv读取制表符分隔文件
read_delim读取使用任意分隔符的文件
read_fwf读取固定宽度的文件
read_table读取空白字符来分隔各列分隔符的文件
read_log读取Apache 风格的日志文件,需要安装webreadr包

这些函数都具有同样的语法,可以举一反三。我们将重点介绍read_csv() 函数,不仅因为 CSV 文件是数据存储最常用的形式之一,还因为一旦掌握 read_csv() 函数,你就可以将从中学到的知识非常轻松地应用于 readr 的其他函数。


read_csv()函数中包含的参数如下:

read_csv(
  file,
  col_names = TRUE,
  col_types = NULL,
  locale = default_locale(),
  na = c("", "NA"),
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip = 0,
  n_max = Inf,
  guess_max = min(1000, n_max),
  progress = show_progress(),
  skip_empty_rows = TRUE
)


下面介绍各个参数的作用:

参数作用
file读取的文件路径,路径名需要用反斜杠表示
col_names如果为TRUE,输入的第一行将被用作列名,并且不会包含在数据帧中。
如果为FALSE,将自动生成列名:X1, X2, X3等。
如果col_names是一个字符向量,这些值将被用作列的名称,并且输入的第一行将被读入输出数据帧的第一行。
缺少(NA)列名将产生一个警告,并被填充为哑名X1, X2等。重复的列名将生成警告,并使用数字后缀使其惟一。
col_types设置类变量的类型
locale区域设置控制的默认值因地方而异。默认的区域设置是以美国为中心的(如R),但您可以使用locale()创建自己的区域设置,控制默认时区、编码、十进制标记、大标记和日/月名称等内容。
na字符串的字符向量,解释为缺少的值。将此选项设置为character(),以指示没有丢失的值。
quoted_na是否引号内缺少的值应该被视为缺少的值(默认)或字符串
comment用于标识注释的字符串
trim_ws在解析每个字段之前,是否应该修剪其前导和尾随空格?
skip读取数据之前要跳过的行数。
n_max要读取的最大记录数。
guess_max用于猜测列类型的最大记录数
progress显示进度条
skip_empty_rows是否忽略空白行

如果能够熟练使用read_csv()函数,就能同样使用readr包中的其他函数来读取文件了,因为所含参数都是大致相同的,这里我们给出常用的两个例子。


读取外部数据

city <- read_csv("C:/Users/Administrator/Desktop/data.csv")


保存到外部文件

city <- write_csv("C:/Users/Administrator/Desktop/data.csv")

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
数据库介绍
数据库(Database)就是存储和管理数据的仓库,数据按照一定的格式进行存储,用户可以对数据库中的数据进行增删改查等操作。
16 0
R数据科学|3.6内容介绍
上节我们对选择现有的列和使用mutate添加新列做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。
81 0
R数据科学|5.5.3内容介绍
对于两个连续变量间的相关变动的可视化表示有一下两种方法: 1. 使用geom_point()画出散点图 2. 使用分箱处理
45 0
数据库介绍
数据库(Database)就是存储和管理数据的仓库,数据按照一定的格式进行存储,用户可以对数据库中的数据进行增删改查等操作
80 0
云上数据库容灾解决方案
原作者:阿里云解决方案架构师,云帅。本文主要介绍数据库灾备的几种方式,以及怎样在云上搭建数据库灾备。
1962 0
手把手 | 如何在计算机上配置数据科学开发环境
从Python、R等编程语言到以Git为例的版本控制系统甚至Unix Shell等命令行工具,数据科学家的武器库现在越来越丰富了,在个人计算机上同时使用这些武器可能会对新入门的数据科学家们造成不小的困扰,本文就将带你学习这些数据科学武器的配置方法。
1548 0
数据科学指南
本文为学习数据科学的指南,从编程语言、数据库管理、数据收集和整理方法、特征工程、机器学习模型、模型评估方面进行讲述。
2502 0
云上数据库容灾解决方案
原作者:阿里云解决方案架构师,云帅。本文主要介绍数据库灾备的几种方式,以及怎样在云上搭建数据库灾备。
13903 0
数据流图
1、数据流图简介              数据流图(数据流程图 Data Flow Diagram):简称DFD,它从数据传递和加工角度,以图形方式来表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程,用于回答软件系统“做什么”的问题,是结构化系统分析方法的主要表达工具及用于表示软件模型的一种图示方法。 2、数据流图基本符号            
6193 0
+关注
庄闪闪
公众号《庄闪闪的R语言手册》
文章
问答
文章排行榜
最热
最新
相关电子书
更多
视频内容理解的研究与实践
立即下载
视觉计算机开发者系列手册
立即下载
50行代码玩转强化学习讲义
立即下载