10.Python【序列】- 字符串(上)

简介: 10.Python【序列】- 字符串

1. 简介

字符串是文本序列类型,是有Unicode字符构成的不可变序列。

ASCII:ASCII 全称为美国国家信息交换标准码,是最早的标准字符集,使用7个或8个二进制位进行编码,最多可以给256个字符分配数值,包括26个大写、小写字母,10个数字,标点符号,控制字符及其它符号。

GB2312:GB2312 是一个简休中文字符集,由6763个常用汉宇和682个全角的非汉宇宇符红成。GB2312 编码使用两个字节表示一个汉字,最多可以表示256×256=65536个汉字。

GBK:GBK 编码标准兼容 GB2312,并对其进行扩展,也来用双字节表示。共收录21003个汉字、883个符号,并提供 1894 个造宇码位,简、繁体字融于一库。

Unicode:Unicode 是全球通用字符編码表,为每种语言中的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。采用两个字节表示一个宇符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0即可。

UTF-8:UTF-8编码是针对 Unicode 的一种可变长度字符编码。它可以表示 Unicode 标淮中的任何字符,并与 ASCIl 完全兼容,采用1~4个字节来表示一个字符。

2. 字符串基础

2.1 构造字符串

字符串字面值构造,单双引号要成对出现,语法如下:

# 单引号
'定义单行字符串,可以包含"双引号"'
# 双引号
"定义单行字符串,可以包含'双引号'"
# 三引号
'''三重单引号,可以定义单行字符串,或者多行字符串'''
"""三重双引号,可以定义单行字符串,或者多行字符串"""

str1 = '''
Hello,world
人生苦短,我用python
'''

使用三引号定义字符串可以跨越多行,其中,所有的空白字符都将包含在该字符串字面值中。如果在单引号或双引号定义的单行宇符串中添加换行符 (\n),可以间接表示多行字符串。


在三引号定义的字符串中,可以包含单引号、双引号、换行符、制表符,以及其他特殊字符,对于这些特殊字符不需要转义,此外,还可以包含注释信息。使用三引号能够确保字符串的原始格式,避免烦琐的转义,方便格式化排版。

使用`str()构造,参数可以为任意的对象,如果省略参数,将创建一个空字符串。

str1 = str() # 定义一个空字符串,返回""
str2 = str([]) # 把空列表转换为字符串,"[]"
str3 = str([1,2,3]) # "[1,2,3]"
str4 = str(None) # "None"


2.2 转义序列

转义序列是指一些不能直接在字符串中表示,不可见的空字符、易引发歧义的字符等

原始字符串

原始字符串就是原义字符串,以R或r作为字符串字面值前缀,常用于定义正则表达式字符串。

r'原始字符串'
R'原始字符串'
# 显示 E:\a\b\c\d
print(r'E:\a\b\c\d') 
print(R'E:\a\b\c\d') 
print('E:\\a\\b\\c\\d') # 使用转义字符

2.3 字符串编码和解码

在Python中,字符串编码就是把字符串转换为字节码,解码就是把字节码表示转换为字符串。

使用encode()可以根据参数encoding指定的编码格式将字符串编码为二进制数据的字节串,string表示字符串对象,参数encoding表示编码格式,默认为UTF-8,参数errors设置不同的处理方案,默认为strict,表示遇到非法字符就抛出异常。

string.encode(encoding='UTF-8',errors='strict')

使用decode()可以解码字节码,返回字符串。

byte.decode(encoding='UTF-8',errors='strict')

示例

u = '中文'
byte1 = u.encode() # 默认UTF-8进行编码,获取bytes类型对象
print(byte1) # b'\xe4\xb8\xad\xe6\x96\x87'
byte2 = u.encode('gbk') # 默认GBK进行编码,获取bytes类型对象
print(byte2) # b'\xd6\xd0\xce\xc4'

u1 = byte1.decode('utf-8') # 以UTF-8进行解码,获取字符串对象
print(u1) # 中文
u2 = byte2.decode('gbk') # 以GBK进行解码,获取字符串对象
print(u2)# 中文

2.4 字符串长度

使用len()函数以字符为单位统计字符串的长度,每个汉字视为一个字符。

s1 = '中国China'
print(len(s1)) # 7

在UTF-8编码中,每个汉字占用3个字符,而在GBK或GB2312中,每个汉字占用2个字符。计算字符串长度时,可以考虑字节编码。在Python中,字母、数字、特殊字符一般占用一个字节,汉字一般占用2~4个字节。

s1 = '中国China'
print(len(s1.encode())) # 11
print(len(s1.encode('gbk))) # 9

3. 字节串基础

3.1 认识字节串

字节串 (bytes)是不可变的字节序列,存储以字节为单位的数据。bytes 类型是Python3新增的一种数据类型。字节串与字符串的比较如下。

字符串由多个宇符构成,以字符为单位进行操作。默认为 Unicode 宇符,字符范围 0~65535。字符串是字符序列,它是一种抽象的概念,不能直接存储在硬盘中,用以显示供人阅读或操作的。

字节串由多个字节构成,以字节为单位进行操作。字节是整型值,取值范围为 0~255。 字节串是字节序列,因此可以直接存储在硬密中,供计算机读取、传输或保存。

除了操作单元不同外,字节串与字符串的用法基本相同,它们之问的映射被称为解码或编码。

3.2 构造字节串

字节串字面值是以b为前缀的ASCII字符串,语法如下:

b'ASCII字符串'
b'转义字符'

b'' 
B"" # 创建空字节串
b'ABCD' 
b'\x41\x42'
 

使用bytes()函数创建,语法如下:

bytes() # 生成空字节串
bytes(整型可迭代对象) # 用可迭代对象初始化一个字节串,元素[0,255]
bytes(整数n) # 生成n个值为0的字节串
bytes('字符串',encoding='编码格式') # 使用字符串的转换编码生成一个字节串

a = bytes() # 等效于:b"
b = bytes([10,20,30,65,66,67]) # 等效于:b'\n\x14\x1eABC'
c = bytes(range(65,65+26)) # 等效于: b'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
d = bytes(5) # b'\x00\x00\x00\x00\x00'
e = bytes('hello 中国','utf-8') # b'hello \xe4\xb8\xad\xe5\x9b\xbd'

#(1)str 转换为 bytes:
bytes = str.encode(utf-8*)
bytes = bytes(str, encoding=' utf-8')
#(2)bytes 转换为 str:
str = bytes.decode(utf-8')
str = str(bytes)

3.3 应用字节串

计算MD5值,有一步需要使用update()方法,而该方法只接受bytes类型数据。因此,对字符串进行加密时,需要先转换为字节串,然后再进行加密处理。

import hashlib
string = '123456'
m = hashlib.md5() # 创建MD5对象
str_bytes = string.encode(encoding='utf-8') # 转换为字节串
m.update(str_bytes) # update()只接受bytes类型数据作为参数
str_md5 = m.hexdigest() # 获取散列后的字符串
print('MD5散列前为:',string)# MD5散列前为: 123456
print('MD5散列后为:',str_md5)# MD5散列后为: e10adc3949ba59abbe56e057f20f883e

使用二进制方式读写文件时,要用到bytes类型,二进制写文件时,write()方法只接收bytes类型数据,因此,需要先将字符串转换成字节串;读取二进制文件时,read()方法返回的是字节串,使用decode()方法可将字节串转换成字符串

f = open('data','wb') # 新建二进制文件
text = '二进制写文件' # 定义字符串
text_bytes = text.encode('utf-8') # 转换为字节串
f.write(text_bytes) # 写入字节串
f.close() # 关闭文件
f = open('data','rb') # 打开二进制文件
data = f.read() # 读取二进制数据流
str_data = data.decode('utf-8') # 转换为字符串
print(data,type(data)) # b'\xe4\xba\x8c\xe8\xbf\x9b\xe5\x88\xb6\xe5\x86\x99\xe6\x96\x87\xe4\xbb\xb6' <class 'bytes'>
print(str_data) # 二进制写文件
f.close() # 关闭文件

4. 操作字符串

4.1 访问字符串

Python 访问字符串有两种方式:下标索引和切片。

str1 = '0123456789'
print(str1[0:3]) # 012
print(str1[:]) # 0123456789
print(str1[::-1]) # 9876543210
print(str1[-3:-1]) # 78
str1 = '01

4.2 遍历字符串

遍历字符串主要是用for语句,也可以使用while语句。

使用iter()函数将字符串生成迭代器,然后循环遍历返回对应值。

s1 = 'Python'
l = [] # 定义临时备用列表
for item in iter(s1): # 把字符串生成迭代器,然后再遍历
    l.append(item.upper()) # 把每个字符转换大写
print("".join(l)) # 输出 PYTHON

使用enumerate()函数将字符串转换为索引序列,索引序列中每个元素为一个元组。

s1 = 'Python'
l = [] # 定义临时备用列表
for i,char in ennumerate(s1): # 把字符串转换为索引序列,然后再遍历
    l.append(char.upper()) # 把每个字符转换大写
print("".join(l)) # 输出 PYTHON

使用range()函数生成一个数字列表,遍历数字列表,逐个访问字符串中每个字符。

s1 = 'Python'
l = [] # 定义临时备用列表
for i in range(len(s1)): # 从0开始,直到字符串总长度
    l.append(char[i].upper()) # 把每个字符转换大写
print("".join(l)) # 输出 PYTHON

逆序遍历,从右到左反向遍历迭代对象。

s1 = 'Python'
for i in s1[::-1]: # 取反切片遍历
    print(i,end=" ")
for i in range(len(s)-1,-1,-1): # 通过range实现
    print(s1[i],end=" ")
for i in reversed(s1): # 通过reversed实现
    print(i,end=" ") # n o h t y P

4.3 连接字符串

最常用的有以下两种,语法和示例如下:

# 使用加号运算拼接
+ 
'''返回一个有iterable中的字符串拼接而成的字符串。
如果iterable中存在任何非字符串值,包括bytes对象,则引发TypeError异常。
'''
str.join(iterable)

s1 = 'Hello'
s2 = 'Python'
s3 = s1 + s2 
s4 = ''join(s2)
s5 = '_'join(s2)
s6 = '_'.join(['a','b','c'])
s7 = '_'.join([1,'b','c']) # 
 

4.4 分割字符串

使用partition()分割,在sep首次出现位置拆分字符串,返回一个3元组,其中分隔符之前、分隔符和分隔符之后部分,如果分割符未找到,则返回3元组中包含字符串本身以及两个空字符串。

str.partion(sep)

str1 = 'www.mysite.com'
print(str1.parttion('.')) # ('www','.','mysite.com')
print(str1.parttion(',')) # ('www.mysite.com','','')

使用rpartition()分割,在sep最后一次出现的位置拆分字符串,返回一个3元组,其中分隔符之前、分隔符和分隔符之后部分,如果分割符未找到,则返回3元组中包含两个空字符串以及字符串本身。

str.rpartion(sep)

str1 = 'www.mysite.com'
print(str1.rparttion('.')) # ('www.mysite','.','com')
print(str1.rparttion(',')) # ('','','www.mysite.com')

使用split()分割,返回一个有字符串内单词组成的列表,使用sep分隔符,如果给出了maxsplit,则最多进行maxsplit次拆分;如果maxsplit未指定或为-1,则不限制拆分次数;如果sep未指定或为None,任何空白字符串都会被作为分隔符,但不包含首位的空字符串。

str.split(sep=None,maxsplit=-1)

str1 = 'www.mysite.com'
print(str1.split('.')) #  不限拆分次数 ['www','mysite','com']
print(str1.split('.',1)) # 限制拆分次数 ['www','mysite.com']

使用splitlines()分割,返回由原字符中各行组成的列表,在行边界的位置拆分;结果列表中不包含行边界,除非给了keepends ,且为真值,行边界主要包括:\n、\r、\f、\v 等。

str.splitlines([keepends])

str1 = 'a\n\nb\re\r\nd'
t1 = str1.splitlines() # 不包含换行符
t2 = str1.splitlines(True) # 包含换行符
print(t1) # ['a','b','c','d']
print(t2) # ['a\n','\n','b\r','c\r\n','d']


 10.Python【序列】- 字符串(下):https://developer.aliyun.com/article/1528744

相关文章
|
11天前
|
Python
使用Python处理字符串。
使用Python处理字符串。
|
11天前
|
算法框架/工具 索引 Python
Python基础教程(第3版)中文版 第三章 使用字符串(笔记)
Python基础教程(第3版)中文版 第三章 使用字符串(笔记)
|
9天前
|
机器学习/深度学习 调度 Python
SOFTS: 时间序列预测的最新模型以及Python使用示例
这是2024年4月《SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion》中提出的新模型,采用集中策略来学习不同序列之间的交互,从而在多变量预测任务中获得最先进的性能。
32 4
|
5天前
|
Python
在Python中,`range()`函数生成一个整数序列,用于循环迭代。
【6月更文挑战第19天】`Python`的`range()`函数生成整数序列,用于迭代。它接受`start`(默认0)、`stop`(不包含,右开)和`step`(默认1)参数。在`for`循环中,`range(5)`会输出0到4。若要包含结束值,需将`stop`设为`end+1`,如`range(1, 6)`将输出1到5。
18 1
|
9天前
|
存储 索引 Python
【Python列表解锁】:掌握序列精髓,驾驭动态数据集合
【Python列表解锁】:掌握序列精髓,驾驭动态数据集合
|
9天前
|
Python 索引
【Python字符串攻略】:玩转文字,编织程序的叙事艺术
【Python字符串攻略】:玩转文字,编织程序的叙事艺术
|
9天前
|
Python
刷题——Python篇(3)字符串
刷题——Python篇(3)字符串
|
11天前
|
Python
Python使用正则表达式分割字符串
在Python中,你可以使用re模块的split()函数来根据正则表达式分割字符串。这个函数的工作原理类似于Python内置的str.split()方法,但它允许你使用正则表达式作为分隔符。
|
19天前
|
Python
Python中字符串和数字相加
【6月更文挑战第3天】
32 3
|
19天前
|
Python
【Python 训练营】N_13 遍历字符串
【Python 训练营】N_13 遍历字符串
13 2