(1) re.match
match(pat,str)
从开始位置开始匹配,如果开头没有则无
import re def look_for(p,s): return '没有找到' if re.search(p,s) is None else re.findall(p,s)
str=""" 5 072003210 一一 1234567890男02/28/2022 6 072003210 二二 1034567890女01/23/2021 7 072003210 三三 1234167890男03/27/2020 """ str
运行结果 str的内容:⬇
'\n5\n072003210 一一\n1234567890男02/28/2022\n6\n072003210 二二\n1034567890女01/23/2021\n7\n072003210 三三\n1234167890男03/27/2020\n'
print(re.match(r'一一',str)) #匹配不到,因为一一不是在开头 print(re.match(r'\n5',str))
运行结果:
None #匹配不到,因为一一不是在开头 <re.Match object; span=(0, 2), match='\n5'>
如果只想拿到要匹配的字符串,则使用group( )
l1='经济与管理T3大数据分析'
print(re.match(r'经济',l1).group())
运行结果:
经济
(2) re.search
search(pat,str)
搜索整个字符串
l1='经济与管理T3大数据分析' print(re.search(r'经济',l1).group()) print(re.search(r'数据',l1))
运行结果:
经济 <re.Match object; span=(10, 12), match='数据'>
(3) re.findall
findall(pat,str)
搜索整个字符串,返回一个list
l1='经济economy经济金融数据分析数据data' print(re.findall(r'经济',l1)) print(re.findall(r'数据',l1))
运行结果:
['经济', '经济'] ['数据', '数据']
(4) re.finditer
finditer(pat,str)
以迭代器的方式输出,返回所有符合某个模型的字符串
比较一下finditer
和findall
的区别:
print([i for i in re.finditer(r'经',l1)]) print([i for i in re.findall(r'经',l1)])
运行结果:
[<re.Match object; span=(0, 1), match='经'>, <re.Match object; span=(9, 10), match='经'>] ['经', '经']
(5) re.split
split(pat,str)
以某个模型为分割点,拆分整个字符串为一系列字符串,以列表形式
str=""" 5 072003210 一一 1234567890男02/28/2022 6 072003210 二二 1034567890女01/23/2021 7 072003210 三三 1234167890男03/27/2020 """
l11=re.split(r'\n',str) type(l11)
运行结果: 此时l11是list类型
list
l11
运行结果:l11的内容👇
['', '5', '072003210 一一', '1234567890男02/28/2022', '6', '072003210 二二', '1034567890女01/23/2021', '7', '072003210 三三', '1234167890男03/27/2020', '']
(6) re.sub
sub(pat,str)
str中找到匹配某个模型的所有字符串,用其他字符串进行替代
l12=re.sub(r'/','-',l11)
由于此时l11
是list
类型,因此不能使用sub
函数,会报错
必须改成数组形式
l12=re.sub(r'/','-',l11[3]) # 把/全部替换成- l12
运行结果:
'1234567890男02-28-2022'
(7) re.compile
compile(pat)
对某个模型进行编译,以便后期使用
str0=""" '02/28/2022 08:00:00,91,T3大数据分析'; '02/28/2022 09:00:00,90,T3数据库原理与应用'; '02/28/2022 11:00:00,92,T3数据库营销'; """
pat=r",([0-9]{2})," obj=re.compile(pat)
print(obj.match(str0)) print(obj.search(str0)) print(obj.findall(str0)) print([i for i in obj.finditer(str0)])
运行结果:
None <re.Match object; span=(21, 25), match=',91,'> ['91', '90', '92'] [<re.Match object; span=(21, 25), match=',91,'>, <re.Match object; span=(55, 59), match=',90,'>, <re.Match object; span=(92, 96), match=',92,'>]
总结
正则表达式相关函数:
(1) re.match :从开始位置开始匹配,如果开头没有则无
match(pat,str)
(2) re.search :搜索整个字符串
search(pat,str)
(3) re.findall :搜索整个字符串,返回一个list
findall(pat,str)
(4) re.finditer :以迭代器的方式输出,返回所有符合某个模型的字符串
finditer(pat,str)
(5) re.split :以某个模型为分割点,拆分整个字符串为一系列字符串,以列表形式
split(pat,str)
(6) re.sub :str中找到匹配某个模型的所有字符串,用其他字符串进行替代
sub(pat,str)
(7) re.compile :对某个模型进行编译,以便后期使用
compile(pat)