Python与R的异同(二):字符串操作

简介: 字符串操作的差异R本身设计初衷主要是用来处理矩阵运算这类数学问题,因此在字符串操作方面比较薄弱。Python并不是专门用来进行数学计算的,没有偏向性,字符串操作优良。

字符串操作的差异

R本身设计初衷主要是用来处理矩阵运算这类数学问题,因此在字符串操作方面比较薄弱。Python并不是专门用来进行数学计算的,没有偏向性,字符串操作优良。但是多年前听说还是比不上Perl,不知道现在怎么样了。

构建字符串

R的字符串无论数量多少都是存放在向量数据结构中,复杂一点的存放就是array, matrix, data.frame, list;Python有专门的字符串类型数据结构,如果需要存放多个字符串,则可以用序列类型,如list(列表), dict(字典), tuple(元组),set(集合)。

下面是手动创建字符串的一些操作,基本上R就比Python少了一个'''操作而已,这个在Python里是用于赋值多行字符串的。R连多行注释都没有,这个也能理解吧

# R
s <- 'abc' ; s <- "abc";  s<- "s'b" ; s <- 's\'b'
ss <- c('abc','efg')
ss_matrix <- matrix(c('ab','bc','cd','de'),nrow=2)
ss_list <- list('a','b','c','d')
# Python
ss = 'abc' ; ss = "abc" ; ss = "What's your name"; ss = 'What\'s your name' ; ss ='''What's your name; "sb?" '''
ss_list = ['abc','edf']
ss_dict= {'a':'b', 'c':'d'}
ss_tuple = ('a','b')

如果是从文本里面读取数据的话,Python是先用open定义一个文件对象,由于文件对象是可迭代的,所以最后可以保存成序列类型的数据结构,如列表

[line for line open('file.txt', 'r')]
with open('file.txt', 'r') as f:
    strings = f.readlines()

R原本是用来进行数据分析的,所以用的是read.table类函数读取多列存放的数据,成为后续操作会用到的data.frame对象。当然对于普通的文本文件,与Python的open和readlines对应的是filereadLines,注意这里的Lines,打错就是其他函数了。

# 类似open
fileA <- file("text.txt", "r")
# 类似python的readline和readlines
# 可以指定固定行, readline(fileA, n=1), 默认全部读取
text <- readLines(fileA)
length(text)

这里的text的每一个元素对应为text.txt的行数据。
可以练习一下读取fasta文件,并保存为R的list格式。

函数

R语言本身的目的不是做文本处理的,基础功能比较薄弱是可以理解的。基础函数大致是如下几个:
nchar(): 函数返回字符串长度
paste(), paste0(): 连接若干个字符串
sprintf():格式化输出
toupper(): 大写转换
tolower(): 小写转换
substr(): 提取或替换一个字符串向量的子串
正则表达式相关的函数,如grep, grepl, regexpr, gregexpr, sub, gsub, strsplit.

后来Hadley大神看不下去,写了一个stringr用来强化R语言字符串操作,效果拔群。
stringr函数主要分为四类:

  1. 字符操作:操作字符向量中的单个字符 str_length, str_sub, str_dup
  2. 添加,移除和操作空白符 str_pad, str_trim, str_wrap
  3. 大小写转换处理 str_to_lower, str_to_upper, str_to_title
  4. 模式匹配函数 str_detect, str_subset, str_count, str_locate, str_locate_all, str_match, str_match_all, str_replace, str_replace_all, str_split_fix, str_split, str_extract, str_extract_all

Python中字符串数据结构本身就有许多的方法,而且还有一些包提供其他功能,比如说re提供了正则表达式功能,string扩展了更多功能。
用dir看下有哪些字符串类型函数

dir(str)
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']

对于一个的字符单位的操作而言,R和Python基本上都有一一对应的函数,比如说R的str_to lower(), str_to_upper(), str_to_title()对应就是python的lower(), upper(), title(),R的模式匹配函数对应的是Python的re模块。
然对于多个字符串组成的整体而言,需要记住R是向量化操作,相对应的是Python必须要用列表推导式,举个例子就是

# R
library(stringr)
ss <- c('abc', 'efg')
str_to_upper(ss)
# Python
ss = ['abc', 'efg']
[string.upper() for string in ss]
目录
相关文章
|
14天前
|
Python
在 Python 中,如何将日期时间类型转换为字符串?
在 Python 中,如何将日期时间类型转换为字符串?
116 64
|
4月前
|
存储 算法 数据库
使用python hashlib模块给明文字符串加密,以及如何撞库破解密码
`hashlib` 是 Python 中用于实现哈希功能的模块,它可以将任意长度的输入通过哈希算法转换为固定长度的输出,即散列值。该模块主要用于字符串加密,例如将用户名和密码转换为不可逆的散列值存储,从而提高安全性。`hashlib` 提供了多种哈希算法,如 `md5`、`sha1`、`sha256` 等。
66 1
|
6天前
|
存储 测试技术 Python
Python 中别再用 ‘+‘ 拼接字符串了!
通过选择合适的字符串拼接方法,可以显著提升 Python 代码的效率和可读性。在实际开发中,根据具体需求和场景选择最佳的方法,避免不必要的性能损失。
27 5
|
10天前
|
Python
使用Python计算字符串的SHA-256散列值
使用Python计算字符串的SHA-256散列值
17 7
|
16天前
|
Python
在 Python 中,如何将字符串中的日期格式转换为日期时间类型?
在 Python 中,如何将字符串中的日期格式转换为日期时间类型?
27 6
|
2月前
|
Python
【10月更文挑战第6天】「Mac上学Python 11」基础篇5 - 字符串类型详解
本篇将详细介绍Python中的字符串类型及其常见操作,包括字符串的定义、转义字符的使用、字符串的连接与格式化、字符串的重复和切片、不可变性、编码与解码以及常用内置方法等。通过本篇学习,用户将掌握字符串的操作技巧,并能灵活处理文本数据。
58 1
【10月更文挑战第6天】「Mac上学Python 11」基础篇5 - 字符串类型详解
|
3月前
|
Python
python获取字符串()里面的字符
在Python中,如果你想获取字符串中括号(比如圆括号`()`、方括号`[]`或花括号`{}`)内的字符,你可以使用正则表达式(通过`re`模块)或者手动编写代码来遍历字符串并检查字符。 这里,我将给出使用正则表达式的一个例子,因为它提供了一种灵活且强大的方式来匹配复杂的字符串模式。 ### 使用正则表达式 正则表达式允许你指定一个模式,Python的`re`模块可以搜索字符串以查找匹配该模式的所有实例。 #### 示例:获取圆括号`()`内的内容 ```python import re def get_content_in_parentheses(s): # 使用正则表达
110 36
|
2月前
|
自然语言处理 Java 数据处理
【速收藏】python字符串操作,你会几个?
【速收藏】python字符串操作,你会几个?
58 7
|
2月前
|
索引 Python
Python 高级编程:深入探索字符串切片
在Python中,字符串切片功能强大,可灵活提取特定部分。本文详细介绍切片技巧:基本切片、省略起始或结束索引、使用负数索引、设定步长及反转字符串等。此外,还介绍了如何结合其他操作进行切片处理,如先转换大小写再提取子串。 来源:https://www.wodianping.com/yeyou/2024-10/48238.html
42 4
|
3月前
|
Python
python第三方库-字符串编码工具 chardet 的使用(python3经典编程案例)
这篇文章介绍了如何使用Python的第三方库chardet来检测字符串的编码类型,包括ASCII、GBK、UTF-8和日文编码的检测示例。
148 6