R数据科学|第八章内容介绍

简介: 本文将介绍如何使用readr包将平面文件加载到 R 中,readr 也是 tidyverse 的核心 R包之一。

使用readr进行数据导入


本文将介绍如何使用readr包将平面文件加载到 R 中,readr 也是 tidyverse 的核心 R包之一。


基本函数

函数 功能
read_csv 读取逗号分隔文件
read_csv2 读取分号分隔文件
read_tsv 读取制表符分隔文件
read_delim 读取使用任意分隔符的文件
read_fwf 读取固定宽度的文件
read_table 读取空白字符来分隔各列分隔符的文件
read_log 读取Apache 风格的日志文件,需要安装webreadr包

这些函数都具有同样的语法,可以举一反三。我们将重点介绍read_csv() 函数,不仅因为 CSV 文件是数据存储最常用的形式之一,还因为一旦掌握 read_csv() 函数,你就可以将从中学到的知识非常轻松地应用于 readr 的其他函数。


read_csv()函数中包含的参数如下:

read_csv(
  file,
  col_names = TRUE,
  col_types = NULL,
  locale = default_locale(),
  na = c("", "NA"),
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip = 0,
  n_max = Inf,
  guess_max = min(1000, n_max),
  progress = show_progress(),
  skip_empty_rows = TRUE
)


下面介绍各个参数的作用:

参数 作用
file 读取的文件路径,路径名需要用反斜杠表示
col_names 如果为TRUE,输入的第一行将被用作列名,并且不会包含在数据帧中。
如果为FALSE,将自动生成列名:X1, X2, X3等。
如果col_names是一个字符向量,这些值将被用作列的名称,并且输入的第一行将被读入输出数据帧的第一行。
缺少(NA)列名将产生一个警告,并被填充为哑名X1, X2等。重复的列名将生成警告,并使用数字后缀使其惟一。
col_types 设置类变量的类型
locale 区域设置控制的默认值因地方而异。默认的区域设置是以美国为中心的(如R),但您可以使用locale()创建自己的区域设置,控制默认时区、编码、十进制标记、大标记和日/月名称等内容。
na 字符串的字符向量,解释为缺少的值。将此选项设置为character(),以指示没有丢失的值。
quoted_na 是否引号内缺少的值应该被视为缺少的值(默认)或字符串
comment 用于标识注释的字符串
trim_ws 在解析每个字段之前,是否应该修剪其前导和尾随空格?
skip 读取数据之前要跳过的行数。
n_max 要读取的最大记录数。
guess_max 用于猜测列类型的最大记录数
progress 显示进度条
skip_empty_rows 是否忽略空白行

如果能够熟练使用read_csv()函数,就能同样使用readr包中的其他函数来读取文件了,因为所含参数都是大致相同的,这里我们给出常用的两个例子。


读取外部数据

city <- read_csv("C:/Users/Administrator/Desktop/data.csv")


保存到外部文件

city <- write_csv("C:/Users/Administrator/Desktop/data.csv")
目录
相关文章
|
Serverless Python
【数据科学导论】实验二:函数调用
【数据科学导论】实验二:函数调用
43 0
|
前端开发 安全 数据挖掘
数据科学中 R 语言教学的10个简单准则
数据科学中 R 语言教学的10个简单准则
117 0
|
机器学习/深度学习 人工智能 算法
数据科学难题,怎么解释到底什么是数据科学
数据科学难题,怎么解释到底什么是数据科学
|
SQL
R数据科学|第九章内容介绍
在实际应用中,我们常会涉及到多个数据表,必须综合使用它们才能找到关键信息。存在于多个表中的这种数据统称为关系数据。本章中的很多概念都和SQL中的相似,只是在dplyr中的表达形式略微不同。一般来说,dplyr 要比 SQL 更容易使用
162 0
R数据科学|第十章内容介绍(二)
本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。
322 0
R数据科学|第十章内容介绍(二)
R数据科学|第十一章内容介绍
因子在 R 中用于处理分类变量。从历史上看,因子远比字符串更容易处理。因此,R 基础包中的很多函数都自动将字符串转换为因子。
195 0
R数据科学|第十一章内容介绍
|
数据可视化
R数据科学|5.5.3内容介绍
对于两个连续变量间的相关变动的可视化表示有一下两种方法: 1. 使用geom_point()画出散点图 2. 使用分箱处理
215 0
R数据科学|5.5.3内容介绍
|
数据可视化
R数据科学|5.5.1 内容介绍
如果变动描述的是一个变量内部的行为,那么相关变动描述的就是多个变量之间的行为。相关变动是两个或多个变量以相关的方式共同变化所表现出的趋势。查看相关变动的最好 方式是将两个或多个变量间的关系以可视化的方式表现出来。如何进行这种可视化表示同 样取决于相关变量的类型。
209 0
|
数据采集 容器
R数据科学|5.4内容介绍及习题解答
R数据科学|5.4内容介绍及习题解答
307 0
|
大数据
R数据科学|第七章内容介绍
tibble是一种简单数据框,它对data.frame的功能进行了一些修改,更易于使用。本文将介绍tidyverse的核心R包之一——tibble包
211 0