R数据科学|第十章内容介绍(一)

简介: 本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。

使用stringr处理字符串


本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。


字符串基础

创建字符串

可以使用单引号或双引号来创建字符串:

string1 <- "This is a string"
string2 <- 'To put a "quote" inside a string, use single quotes'

如果想要在字符串中包含一个单引号或双引号,可以使用 \ 对其进行“转义”:

double_quote <- "\"" # or '"'
single_quote <- '\'' # or "'"

多个字符串通常保存在一个字符向量中,你可以使用c() 函数来创建字符向量:

c("one", "two", "three")
#> [1] "one" "two" "three"


字符串长度

str_length() 函数可以返回字符串中的字符数量:

str_length("abc")
#> [1] 3

字符串向量也适用:

str_length(c("a", "R for data science", NA))
#> [1] 1 18 NA


字符串组合

要想组合两个或更多字符串,可以使用str_c()函数:

str_c("x", "y")
#> [1] "xy"
str_c("x", "y", "z")
#> [1] "xyz"

可以使用 sep 参数来控制字符串间的分隔方式:

str_c("x", "y", sep = ", ")
#> [1] "x, y"


字符串取子集

可以使用str_sub()函数来提取字符串的一部分。除了字符串参数外,str_sub() 函数中还 有 start 和 end 参数,它们给出了子串的位置(包括 start 和 end 在内):

x <- c("Apple", "Banana", "Pear")
str_sub(x, 1, 3)
#> [1] "App" "Ban" "Pea"
# 负数表示从后往前数
str_sub(x, -3, -1)
#> [1] "ple" "ana" "ear"



目录
相关文章
|
前端开发 安全 数据挖掘
数据科学中 R 语言教学的10个简单准则
数据科学中 R 语言教学的10个简单准则
117 0
|
机器学习/深度学习 人工智能 算法
数据科学难题,怎么解释到底什么是数据科学
数据科学难题,怎么解释到底什么是数据科学
R数据科学|第十章内容介绍(二)
本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。
322 0
R数据科学|第十章内容介绍(二)
R数据科学|第十一章内容介绍
因子在 R 中用于处理分类变量。从历史上看,因子远比字符串更容易处理。因此,R 基础包中的很多函数都自动将字符串转换为因子。
195 0
R数据科学|第十一章内容介绍
|
SQL
R数据科学|第九章内容介绍
在实际应用中,我们常会涉及到多个数据表,必须综合使用它们才能找到关键信息。存在于多个表中的这种数据统称为关系数据。本章中的很多概念都和SQL中的相似,只是在dplyr中的表达形式略微不同。一般来说,dplyr 要比 SQL 更容易使用
162 0
|
数据可视化
R数据科学|5.5.3内容介绍
对于两个连续变量间的相关变动的可视化表示有一下两种方法: 1. 使用geom_point()画出散点图 2. 使用分箱处理
215 0
R数据科学|5.5.3内容介绍
|
数据可视化
R数据科学|5.5.1 内容介绍
如果变动描述的是一个变量内部的行为,那么相关变动描述的就是多个变量之间的行为。相关变动是两个或多个变量以相关的方式共同变化所表现出的趋势。查看相关变动的最好 方式是将两个或多个变量间的关系以可视化的方式表现出来。如何进行这种可视化表示同 样取决于相关变量的类型。
209 0
|
数据采集 容器
R数据科学|5.4内容介绍及习题解答
R数据科学|5.4内容介绍及习题解答
307 0
|
存储 Apache
R数据科学|第八章内容介绍
本文将介绍如何使用readr包将平面文件加载到 R 中,readr 也是 tidyverse 的核心 R包之一。
144 0
|
大数据
R数据科学|第七章内容介绍
tibble是一种简单数据框,它对data.frame的功能进行了一些修改,更易于使用。本文将介绍tidyverse的核心R包之一——tibble包
211 0