Python与R的异同（二）：字符串操作

2017-07-07 1000

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 字符串操作的差异R本身设计初衷主要是用来处理矩阵运算这类数学问题，因此在字符串操作方面比较薄弱。Python并不是专门用来进行数学计算的，没有偏向性，字符串操作优良。

字符串操作的差异

R本身设计初衷主要是用来处理矩阵运算这类数学问题，因此在字符串操作方面比较薄弱。Python并不是专门用来进行数学计算的，没有偏向性，字符串操作优良。但是多年前听说还是比不上Perl，不知道现在怎么样了。

构建字符串

R的字符串无论数量多少都是存放在向量数据结构中，复杂一点的存放就是array, matrix, data.frame, list；Python有专门的字符串类型数据结构，如果需要存放多个字符串，则可以用序列类型，如list（列表）, dict（字典）, tuple（元组），set(集合)。

下面是手动创建字符串的一些操作，基本上R就比Python少了一个'''操作而已，这个在Python里是用于赋值多行字符串的。R连多行注释都没有，这个也能理解吧

# R
s <- 'abc' ； s <- "abc";  s<- "s'b" ; s <- 's\'b'
ss <- c('abc','efg')
ss_matrix <- matrix(c('ab','bc','cd','de'),nrow=2)
ss_list <- list('a','b','c','d')
# Python
ss = 'abc' ; ss = "abc" ; ss = "What's your name"; ss = 'What\'s your name' ; ss ='''What's your name； "sb?" '''
ss_list = ['abc','edf']
ss_dict= {'a':'b', 'c':'d'}
ss_tuple = ('a','b')

如果是从文本里面读取数据的话,Python是先用open定义一个文件对象，由于文件对象是可迭代的，所以最后可以保存成序列类型的数据结构，如列表

[line for line open('file.txt', 'r')]
with open('file.txt', 'r') as f:
    strings = f.readlines()

R原本是用来进行数据分析的，所以用的是read.table类函数读取多列存放的数据，成为后续操作会用到的data.frame对象。当然对于普通的文本文件，与Python的open和readlines对应的是file和readLines，注意这里的Lines，打错就是其他函数了。

# 类似open
fileA <- file("text.txt", "r")
# 类似python的readline和readlines
# 可以指定固定行, readline(fileA, n=1), 默认全部读取
text <- readLines(fileA)
length(text)

这里的text的每一个元素对应为text.txt的行数据。
可以练习一下读取fasta文件，并保存为R的list格式。

函数

R语言本身的目的不是做文本处理的，基础功能比较薄弱是可以理解的。基础函数大致是如下几个：
nchar(): 函数返回字符串长度
paste(), paste0(): 连接若干个字符串
sprintf()：格式化输出
toupper(): 大写转换
tolower(): 小写转换
substr(): 提取或替换一个字符串向量的子串
正则表达式相关的函数，如grep, grepl, regexpr, gregexpr, sub, gsub, strsplit.

后来Hadley大神看不下去，写了一个stringr用来强化R语言字符串操作，效果拔群。
stringr函数主要分为四类：

字符操作：操作字符向量中的单个字符 str_length, str_sub, str_dup
添加，移除和操作空白符 str_pad, str_trim, str_wrap
大小写转换处理 str_to_lower, str_to_upper, str_to_title
模式匹配函数 str_detect, str_subset, str_count, str_locate, str_locate_all, str_match, str_match_all, str_replace, str_replace_all, str_split_fix, str_split, str_extract, str_extract_all

Python中字符串数据结构本身就有许多的方法，而且还有一些包提供其他功能，比如说re提供了正则表达式功能，string扩展了更多功能。
用dir看下有哪些字符串类型函数

dir(str)
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']

对于一个的字符单位的操作而言，R和Python基本上都有一一对应的函数，比如说R的str_to lower(), str_to_upper(), str_to_title()对应就是python的lower(), upper(), title(),R的模式匹配函数对应的是Python的re模块。
然对于多个字符串组成的整体而言，需要记住R是向量化操作，相对应的是Python必须要用列表推导式，举个例子就是

# R
library(stringr)
ss <- c('abc', 'efg')
str_to_upper(ss)
# Python
ss = ['abc', 'efg']
[string.upper() for string in ss]

Python与R的异同（二）：字符串操作

字符串操作的差异

构建字符串

函数

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python与R的异同（二）：字符串操作

字符串操作的差异

构建字符串

函数

热门文章

最新文章

相关课程

相关电子书

推荐镜像