正则表达式模式

正则表达式模式 | 手把手教你入门Python之八十八

2020-07-09 4723

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节列出了正则表达式模式语法中的特殊元素的使用方法。

上一篇：正则修饰符的使用 | 手把手教你入门Python之八十七
下一篇：正则表达式练习 | 手把手教你入门Python之八十九

本文来自于千锋教育在阿里云开发者社区学习中心上线课程《Python入门2020最新大课》，主讲人姜伟。

下表列出了正则表达式模式语法中的特殊元素，如果你使⽤模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

⾮打印字符

⾮打印字符也可以是正则表达式的组成部分。下表列出了表示⾮打印字符的转义序列：

import re

# \s  表示任意的空白字符
print(re.search(r'\s', 'hello world'))  # 空格
print(re.search(r'\n', 'hello\nworld'))  # 换行
print(re.search(r'\t', 'hello\tworld'))  # 制表符

# \S  表示非空白字符
print(re.search(r'\S', '\t\n   x'))

特殊字符

所谓特殊字符，就是⼀些有特殊含义的字符。若要匹配这些特殊字符，必须⾸先使字符"转义"，即，将反斜杠字符放在它们前⾯。下表列出了正则表达式中的特殊字符：

# 标点符号的使用:

# ():用来表示一个分组
m = re.search(r'h(\d+)x', 'sh829xkflsa')
print(m.group(1))
# 如果要表示括号，需要使用 \
m1 = re.search(r'\(.*\)', '(1+1)*3+5')
print(m1.group())

# . 表示匹配除了换行以外的任意字符。如果想要匹配 . 需要使用 \.

# [] 用来表示可选项范围  [x-y]从x到y区间，包含x和y
# m2 = re.search(r'f[a-d]m', 'pdsfcm')
# m2 = re.search(r'f[0-5]m', 'pdsf4m')
# m2 = re.search(r'f[0-5]+m', 'pdsf40m')
m2 = re.search(r'f[0-5a-dx]m', 'pdsfxm')  # 0<=value<=5 或者 a<=value<=d或者value==x
print(m2)

# | 用来表示或者  和  [] 有一定的相似，但是有区别
# [] 里的值表示的是区间，而且是单个字符
# | 就是可选值，可以出现多个值
print(re.search(r'f(x|prz|t)m', 'pdsfprzm'))

# {} 用来限定前面元素出现的次数
# {n}:表示前面的元素出现 n 次
print(re.search(r'go{2}d', 'good'))
# {n,}:表示前面的元素出现 n 次以上
print(re.search(r'go{2,}d', 'gooooood'))
# {,n}:表示前面的元素出现 n 次以下
print(re.search(r'go{,2}d', 'gd'))
# {m,n}:表示前面的元素出现m到n次
print(re.search(r'go{3,5}d', 'gooood'))

import re

# 字母表示它本身，很多字母前面  \ 会有特殊含义

# \n:表示换行   \t:表示一个制表符  \s:空白字符  \S:非空白字符
# \d:表示数字，等价于 [0-9]
print(re.search(r'x\d+p', 'x243p'))
print(re.search(r'x[0-9]+p', 'x243p'))

# ^ 除了表示以指定的内容开始以外，在 [] 里还可以表示取反
# \D:表示非数字，等价于 [^0-9]
print(re.search(r'\D+', 'he110'))
print(re.search(r'[^0-9]+', 'he110'))

# \w:表示数字、字母、 _ 以及中文等   非标点符号
print(re.findall(r'\w+', 'h+E-11.0_X*'))
print(re.findall(r'\w+', '大,家+好!'))

# \W: \w 取反
print(re.findall(r'\W+', 'h+E-11.0_X*'))

定位符

定位符使您能够将正则表达式固定到⾏⾸或⾏尾。它们还使您能够创建这样的正则表达式，这些正则表达式出现在⼀个单词内、在⼀个单词的开头或者⼀个单词的结尾。

定位符⽤来描述字符串或单词的边界，^ 和 $ 分别指字符串的开始与结束，\b 描述单词的前或后边界，\B 表示⾮单词边界。

正则表达式的定位符有：

# ^:以指定的内容开头   $:指定内容结尾
print(re.search(r'^a.*i$', 'aofi'))

限定符

限定符⽤来指定正则表达式的⼀个给定组件必须要出现多少次才能满⾜匹配。有 ***** 或 + 或 ? 或 {n} 或{n,} 或 {n,m} 共6种。
正则表达式的限定符有：

# *:表示前面的元素出现任意次数(0次及以上) 等价于  {0,}
x = re.search(r'go*d', 'goooooooooooooooooooooooooooooooooooooooooooooooooooooooooood')
print(x.group())

# +:表示前面的元素至少出现一次，等价于 {1,}
print(re.search(r'go+d', 'goood'))

# ?:两种用法:
# 1.规定前面的元素最多只能出现一次，等价于 {,1}
# 2.将贪婪模式转换成为非贪婪模式
print(re.search(r'go?d', 'god'))

示例：

re.search(r'\s','⼤家好 我是 代码') # 匹配所有的空字符
re.search(r'\S','⼤家') # 匹配所有的⾮空字符
re.search(r'\n','⼤家好\n我是代码') # 匹配换⾏
re.search(r'n$','hello python') # 匹配以 n 结尾
re.search(r'^h.+n$','hello python') # 匹配以 h 开头，中间出现⼀次或多次任意字符，并且以n结尾
re.search(r'^ha*','h') # 匹配以 h 开头，a出现0次或者⼀次

正则表达式模式 | 手把手教你入门Python之八十八