10.Python【序列】- 字符串(上)

简介: 10.Python【序列】- 字符串

1. 简介

字符串是文本序列类型,是有Unicode字符构成的不可变序列。

ASCII:ASCII 全称为美国国家信息交换标准码,是最早的标准字符集,使用7个或8个二进制位进行编码,最多可以给256个字符分配数值,包括26个大写、小写字母,10个数字,标点符号,控制字符及其它符号。

GB2312:GB2312 是一个简休中文字符集,由6763个常用汉宇和682个全角的非汉宇宇符红成。GB2312 编码使用两个字节表示一个汉字,最多可以表示256×256=65536个汉字。

GBK:GBK 编码标准兼容 GB2312,并对其进行扩展,也来用双字节表示。共收录21003个汉字、883个符号,并提供 1894 个造宇码位,简、繁体字融于一库。

Unicode:Unicode 是全球通用字符編码表,为每种语言中的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。采用两个字节表示一个宇符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0即可。

UTF-8:UTF-8编码是针对 Unicode 的一种可变长度字符编码。它可以表示 Unicode 标淮中的任何字符,并与 ASCIl 完全兼容,采用1~4个字节来表示一个字符。

2. 字符串基础

2.1 构造字符串

字符串字面值构造,单双引号要成对出现,语法如下:

# 单引号
'定义单行字符串,可以包含"双引号"'
# 双引号
"定义单行字符串,可以包含'双引号'"
# 三引号
'''三重单引号,可以定义单行字符串,或者多行字符串'''
"""三重双引号,可以定义单行字符串,或者多行字符串"""

str1 = '''
Hello,world
人生苦短,我用python
'''

使用三引号定义字符串可以跨越多行,其中,所有的空白字符都将包含在该字符串字面值中。如果在单引号或双引号定义的单行宇符串中添加换行符 (\n),可以间接表示多行字符串。


在三引号定义的字符串中,可以包含单引号、双引号、换行符、制表符,以及其他特殊字符,对于这些特殊字符不需要转义,此外,还可以包含注释信息。使用三引号能够确保字符串的原始格式,避免烦琐的转义,方便格式化排版。

使用`str()构造,参数可以为任意的对象,如果省略参数,将创建一个空字符串。

str1 = str() # 定义一个空字符串,返回""
str2 = str([]) # 把空列表转换为字符串,"[]"
str3 = str([1,2,3]) # "[1,2,3]"
str4 = str(None) # "None"


2.2 转义序列

转义序列是指一些不能直接在字符串中表示,不可见的空字符、易引发歧义的字符等

原始字符串

原始字符串就是原义字符串,以R或r作为字符串字面值前缀,常用于定义正则表达式字符串。

r'原始字符串'
R'原始字符串'
# 显示 E:\a\b\c\d
print(r'E:\a\b\c\d') 
print(R'E:\a\b\c\d') 
print('E:\\a\\b\\c\\d') # 使用转义字符

2.3 字符串编码和解码

在Python中,字符串编码就是把字符串转换为字节码,解码就是把字节码表示转换为字符串。

使用encode()可以根据参数encoding指定的编码格式将字符串编码为二进制数据的字节串,string表示字符串对象,参数encoding表示编码格式,默认为UTF-8,参数errors设置不同的处理方案,默认为strict,表示遇到非法字符就抛出异常。

string.encode(encoding='UTF-8',errors='strict')

使用decode()可以解码字节码,返回字符串。

byte.decode(encoding='UTF-8',errors='strict')

示例

u = '中文'
byte1 = u.encode() # 默认UTF-8进行编码,获取bytes类型对象
print(byte1) # b'\xe4\xb8\xad\xe6\x96\x87'
byte2 = u.encode('gbk') # 默认GBK进行编码,获取bytes类型对象
print(byte2) # b'\xd6\xd0\xce\xc4'

u1 = byte1.decode('utf-8') # 以UTF-8进行解码,获取字符串对象
print(u1) # 中文
u2 = byte2.decode('gbk') # 以GBK进行解码,获取字符串对象
print(u2)# 中文

2.4 字符串长度

使用len()函数以字符为单位统计字符串的长度,每个汉字视为一个字符。

s1 = '中国China'
print(len(s1)) # 7

在UTF-8编码中,每个汉字占用3个字符,而在GBK或GB2312中,每个汉字占用2个字符。计算字符串长度时,可以考虑字节编码。在Python中,字母、数字、特殊字符一般占用一个字节,汉字一般占用2~4个字节。

s1 = '中国China'
print(len(s1.encode())) # 11
print(len(s1.encode('gbk))) # 9

3. 字节串基础

3.1 认识字节串

字节串 (bytes)是不可变的字节序列,存储以字节为单位的数据。bytes 类型是Python3新增的一种数据类型。字节串与字符串的比较如下。

字符串由多个宇符构成,以字符为单位进行操作。默认为 Unicode 宇符,字符范围 0~65535。字符串是字符序列,它是一种抽象的概念,不能直接存储在硬盘中,用以显示供人阅读或操作的。

字节串由多个字节构成,以字节为单位进行操作。字节是整型值,取值范围为 0~255。 字节串是字节序列,因此可以直接存储在硬密中,供计算机读取、传输或保存。

除了操作单元不同外,字节串与字符串的用法基本相同,它们之问的映射被称为解码或编码。

3.2 构造字节串

字节串字面值是以b为前缀的ASCII字符串,语法如下:

b'ASCII字符串'
b'转义字符'

b'' 
B"" # 创建空字节串
b'ABCD' 
b'\x41\x42'
 

使用bytes()函数创建,语法如下:

bytes() # 生成空字节串
bytes(整型可迭代对象) # 用可迭代对象初始化一个字节串,元素[0,255]
bytes(整数n) # 生成n个值为0的字节串
bytes('字符串',encoding='编码格式') # 使用字符串的转换编码生成一个字节串

a = bytes() # 等效于:b"
b = bytes([10,20,30,65,66,67]) # 等效于:b'\n\x14\x1eABC'
c = bytes(range(65,65+26)) # 等效于: b'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
d = bytes(5) # b'\x00\x00\x00\x00\x00'
e = bytes('hello 中国','utf-8') # b'hello \xe4\xb8\xad\xe5\x9b\xbd'

#(1)str 转换为 bytes:
bytes = str.encode(utf-8*)
bytes = bytes(str, encoding=' utf-8')
#(2)bytes 转换为 str:
str = bytes.decode(utf-8')
str = str(bytes)

3.3 应用字节串

计算MD5值,有一步需要使用update()方法,而该方法只接受bytes类型数据。因此,对字符串进行加密时,需要先转换为字节串,然后再进行加密处理。

import hashlib
string = '123456'
m = hashlib.md5() # 创建MD5对象
str_bytes = string.encode(encoding='utf-8') # 转换为字节串
m.update(str_bytes) # update()只接受bytes类型数据作为参数
str_md5 = m.hexdigest() # 获取散列后的字符串
print('MD5散列前为:',string)# MD5散列前为: 123456
print('MD5散列后为:',str_md5)# MD5散列后为: e10adc3949ba59abbe56e057f20f883e

使用二进制方式读写文件时,要用到bytes类型,二进制写文件时,write()方法只接收bytes类型数据,因此,需要先将字符串转换成字节串;读取二进制文件时,read()方法返回的是字节串,使用decode()方法可将字节串转换成字符串

f = open('data','wb') # 新建二进制文件
text = '二进制写文件' # 定义字符串
text_bytes = text.encode('utf-8') # 转换为字节串
f.write(text_bytes) # 写入字节串
f.close() # 关闭文件
f = open('data','rb') # 打开二进制文件
data = f.read() # 读取二进制数据流
str_data = data.decode('utf-8') # 转换为字符串
print(data,type(data)) # b'\xe4\xba\x8c\xe8\xbf\x9b\xe5\x88\xb6\xe5\x86\x99\xe6\x96\x87\xe4\xbb\xb6' <class 'bytes'>
print(str_data) # 二进制写文件
f.close() # 关闭文件

4. 操作字符串

4.1 访问字符串

Python 访问字符串有两种方式:下标索引和切片。

str1 = '0123456789'
print(str1[0:3]) # 012
print(str1[:]) # 0123456789
print(str1[::-1]) # 9876543210
print(str1[-3:-1]) # 78
str1 = '01

4.2 遍历字符串

遍历字符串主要是用for语句,也可以使用while语句。

使用iter()函数将字符串生成迭代器,然后循环遍历返回对应值。

s1 = 'Python'
l = [] # 定义临时备用列表
for item in iter(s1): # 把字符串生成迭代器,然后再遍历
    l.append(item.upper()) # 把每个字符转换大写
print("".join(l)) # 输出 PYTHON

使用enumerate()函数将字符串转换为索引序列,索引序列中每个元素为一个元组。

s1 = 'Python'
l = [] # 定义临时备用列表
for i,char in ennumerate(s1): # 把字符串转换为索引序列,然后再遍历
    l.append(char.upper()) # 把每个字符转换大写
print("".join(l)) # 输出 PYTHON

使用range()函数生成一个数字列表,遍历数字列表,逐个访问字符串中每个字符。

s1 = 'Python'
l = [] # 定义临时备用列表
for i in range(len(s1)): # 从0开始,直到字符串总长度
    l.append(char[i].upper()) # 把每个字符转换大写
print("".join(l)) # 输出 PYTHON

逆序遍历,从右到左反向遍历迭代对象。

s1 = 'Python'
for i in s1[::-1]: # 取反切片遍历
    print(i,end=" ")
for i in range(len(s)-1,-1,-1): # 通过range实现
    print(s1[i],end=" ")
for i in reversed(s1): # 通过reversed实现
    print(i,end=" ") # n o h t y P

4.3 连接字符串

最常用的有以下两种,语法和示例如下:

# 使用加号运算拼接
+ 
'''返回一个有iterable中的字符串拼接而成的字符串。
如果iterable中存在任何非字符串值,包括bytes对象,则引发TypeError异常。
'''
str.join(iterable)

s1 = 'Hello'
s2 = 'Python'
s3 = s1 + s2 
s4 = ''join(s2)
s5 = '_'join(s2)
s6 = '_'.join(['a','b','c'])
s7 = '_'.join([1,'b','c']) # 
 

4.4 分割字符串

使用partition()分割,在sep首次出现位置拆分字符串,返回一个3元组,其中分隔符之前、分隔符和分隔符之后部分,如果分割符未找到,则返回3元组中包含字符串本身以及两个空字符串。

str.partion(sep)

str1 = 'www.mysite.com'
print(str1.parttion('.')) # ('www','.','mysite.com')
print(str1.parttion(',')) # ('www.mysite.com','','')

使用rpartition()分割,在sep最后一次出现的位置拆分字符串,返回一个3元组,其中分隔符之前、分隔符和分隔符之后部分,如果分割符未找到,则返回3元组中包含两个空字符串以及字符串本身。

str.rpartion(sep)

str1 = 'www.mysite.com'
print(str1.rparttion('.')) # ('www.mysite','.','com')
print(str1.rparttion(',')) # ('','','www.mysite.com')

使用split()分割,返回一个有字符串内单词组成的列表,使用sep分隔符,如果给出了maxsplit,则最多进行maxsplit次拆分;如果maxsplit未指定或为-1,则不限制拆分次数;如果sep未指定或为None,任何空白字符串都会被作为分隔符,但不包含首位的空字符串。

str.split(sep=None,maxsplit=-1)

str1 = 'www.mysite.com'
print(str1.split('.')) #  不限拆分次数 ['www','mysite','com']
print(str1.split('.',1)) # 限制拆分次数 ['www','mysite.com']

使用splitlines()分割,返回由原字符中各行组成的列表,在行边界的位置拆分;结果列表中不包含行边界,除非给了keepends ,且为真值,行边界主要包括:\n、\r、\f、\v 等。

str.splitlines([keepends])

str1 = 'a\n\nb\re\r\nd'
t1 = str1.splitlines() # 不包含换行符
t2 = str1.splitlines(True) # 包含换行符
print(t1) # ['a','b','c','d']
print(t2) # ['a\n','\n','b\r','c\r\n','d']


 10.Python【序列】- 字符串(下):https://developer.aliyun.com/article/1528744

相关文章
|
2月前
|
移动开发 自然语言处理 Linux
Python中r前缀:原始字符串的魔法解析
本文深入解析Python中字符串的r前缀(原始字符串)的设计原理与应用场景。首先分析传统字符串转义机制的局限性,如“反斜杠地狱”问题;接着阐述原始字符串的工作机制,包括语法定义、与三引号结合的用法及特殊场景处理。文章重点探讨其在正则表达式、文件路径和多语言文本处理中的核心应用,并分享动态构建、混合模式编程等进阶技巧。同时纠正常见误区,展望未来改进方向,帮助开发者更好地理解和使用这一特性,提升代码可读性和维护性。
72 0
|
2月前
|
数据采集 监控 数据安全/隐私保护
Python正则表达式:用"模式密码"解锁复杂字符串
正则表达式是处理字符串的强大工具,本文以Python的`re`模块为核心,详细解析其原理与应用。从基础语法如字符类、量词到进阶技巧如贪婪匹配与预定义字符集,结合日志分析、数据清洗及网络爬虫等实战场景,展示正则表达式的强大功能。同时探讨性能优化策略(如预编译)和常见错误解决方案,帮助开发者高效掌握这一“瑞士军刀”。最后提醒,合理使用正则表达式,避免过度复杂化,追求简洁优雅的代码风格。
63 0
|
27天前
|
SQL 安全 算法
解读 Python 3.14:模板字符串、惰性类型、Zstd压缩等7大核心功能升级
Python 3.14 引入了七大核心技术特性,大幅提升开发效率与应用安全性。其中包括:t-strings(PEP 750)提供更安全灵活的字符串处理;类型注解惰性求值(PEP 649)优化启动性能;外部调试器API标准化(PEP 768)增强调试体验;原生支持Zstandard压缩算法(PEP 784)提高效率;REPL交互环境升级更友好;UUID模块扩展支持新标准并优化性能;finally块语义强化(PEP 765)确保资源清理可靠性。这些改进使Python在后端开发、数据科学等领域更具竞争力。
53 5
解读 Python 3.14:模板字符串、惰性类型、Zstd压缩等7大核心功能升级
|
1月前
|
搜索推荐 Python
Python语言中字符串操作方法的全面归纳
以上就是Python中一些重要的字符串操作方法,掌握了这些,对于操作字符串,你也就够用了。在Python众多的特性中,字符串操作无疑是最有趣的部分之一。希望你也觉得如此。
62 27
|
1月前
|
存储 数据采集 大数据
Python推导式进阶指南:优雅初始化序列的科学与艺术
本文系统讲解Python推导式的用法与技巧,涵盖列表、字典、集合推导式及生成器表达式。通过代码示例和性能对比,展示推导式在数据结构初始化中的优势:简洁高效、执行速度快30%-50%。文章分析基础语法、核心应用场景(如序列构造、键值对转换、去重运算)及嵌套使用,并探讨使用边界与最佳实践,强调可读性优先原则。最后指出,合理运用推导式能显著提升代码质量和处理效率,同时避免过度复杂化的陷阱。
41 0
|
4月前
|
索引 Python
python字符串类型及操作
本文主要讲解字符串类型的表示、操作符、处理函数、处理方法及格式化。内容涵盖字符串的定义、表示方法(单双引号、三引号)、索引与切片、特殊字符转义、常见操作符(如+、*、in等)、处理函数(如len()、str()、chr()等)、处理方法(如.lower()、.split()等)以及格式化方式(如.format())。通过实例代码详细介绍了字符串的各种用法和技巧,帮助读者全面掌握字符串操作。
142 2
python字符串类型及操作
|
4月前
|
存储 索引 Python
Python入门:6.深入解析Python中的序列
在 Python 中,**序列**是一种有序的数据结构,广泛应用于数据存储、操作和处理。序列的一个显著特点是支持通过**索引**访问数据。常见的序列类型包括字符串(`str`)、列表(`list`)和元组(`tuple`)。这些序列各有特点,既可以存储简单的字符,也可以存储复杂的对象。 为了帮助初学者掌握 Python 中的序列操作,本文将围绕**字符串**、**列表**和**元组**这三种序列类型,详细介绍其定义、常用方法和具体示例。
Python入门:6.深入解析Python中的序列
|
7月前
|
Python
在 Python 中,如何将日期时间类型转换为字符串?
在 Python 中,如何将日期时间类型转换为字符串?
295 64
|
7月前
|
Python
在 Python 中,如何将字符串中的日期格式转换为日期时间类型?
在 Python 中,如何将字符串中的日期格式转换为日期时间类型?
220 62
|
5月前
|
存储 人工智能 Python
[oeasy]python061_如何接收输入_input函数_字符串_str_容器_ 输入输出
本文介绍了Python中如何使用`input()`函数接收用户输入。`input()`函数可以从标准输入流获取字符串,并将其赋值给变量。通过键盘输入的值可以实时赋予变量,实现动态输入。为了更好地理解其用法,文中通过实例演示了如何接收用户输入并存储在变量中,还介绍了`input()`函数的参数`prompt`,用于提供输入提示信息。最后总结了`input()`函数的核心功能及其应用场景。更多内容可参考蓝桥、GitHub和Gitee上的相关教程。
79 0

热门文章

最新文章

推荐镜像

更多
下一篇
oss创建bucket