【sub函数】

函数语法

sub(pattern: str | Pattern[str], repl: str | (Match[str]), string: str, count: int = ...,

【参数 pattern】正则表达式字符串或者Pattern类

【参数 repl】要替换为的字符串或者函数（函数必须接收一个Match类，并返回一个字符串）

【参数 string】要进行操作的字符串

【参数 count】替换次数，从左往右计数，默认为对象ellipsis，即完全替换，若设为0也将完全替换

【参数 flags】可选标志，修饰符，默认不进行修饰

函数将把 string 中满足正则表达式的部分替换为 repl（如果repl是字符串），或者按照某种字符串生成规则（repl 为函数），替换为相应的字符串，返回替换后的字符串

代码示例

import re
#替换为固定的字符串
print(re.sub('\w*','!','123Python'))
#输出：!!（仔细体会为什么是两个感叹号）
def repl(match:re.Match):
    #repl替换函数
    #接收一个Match类
    #返回一个字符串
    return str(int(match.group())**2)
#替换为某种字符串（由替换函数决定）
print(re.sub('\d',repl,'123'))
#输出：149

【subn函数】

函数语法

subn(pattern: str | Pattern[str], repl: str | (Match[str]), string: str, count: int = ..., f

【参数 pattern】正则表达式字符串或者Pattern类

【参数 repl】要替换为的字符串或者函数（函数必须接收一个Match类，并返回一个字符串）

【参数 string】要进行操作的字符串

【参数 count】替换次数，从左往右计数，默认为对象ellipsis，即完全替换，若设为0也将完全替换

【参数 flags】可选标志，修饰符，默认不进行修饰

与 sub 函数类似，但是返回一个元组（tuple[str, int]），为替换后的字符串以及原字符串的总替换次数

代码示例

import re
#替换为固定的字符串
print(re.subn('\w+','!','123Python'))
#输出：('!', 1)
def repl(match:re.Match):
    #repl替换函数
    #接收一个Match类
    #返回一个字符串
    return str(int(match.group())**2)
#替换为某种字符串（由替换函数决定）
#替换次数：2次
print(re.subn('\d',repl,'123',2))
#输出：('143', 2)

【template函数】

函数语法

template(pattern: AnyStr@template | Pattern[AnyStr@template], flags: _FlagsType = ...)

【参数 pattern】一个正则表达式字符串

【参数 flags】可选标志，修饰符，默认不进行修饰

和 compile 函数类似，编译正则表达式函数，将正则表达式字符串编译为 Pattern 对象（Pattern[AnyStr@template]），但其返回的 Pattern 对象多了一个修饰符 T（TEMPLATE）

代码示例

import re
print(re.template('\d'))
#输出：re.compile('\\d', re.TEMPLATE)
print(re.template('\d').match('123').group())
#输出：1

示例说明

匹配单个字符

匹配单个字符的比较简单，下面这些元字符是用于匹配单个字符的

import re
#点号元字符
print(re.match('.','\n').group())#点号元字符默认不包含换行符
#输出：AttributeError: 'NoneType' object has no attribute 'group'
print(re.match('.','\n',re.S).group().__repr__())#S修饰符使换行符被包括
#输出：'\n'
#方括号元字符
print(re.match('[abc]','b').group())#匹配abc任意其一
#输出：b
print(re.match('[!-/:-@]','?').group())#匹配标点符号
#输出：?
#\d元字符
print(re.match('\d','666').group())#匹配数字字符
#输出：6
print(re.match('\D','nb').group())#匹配非数字字符
#输出：n
#\w元字符
print(re.match('\w','abc').group())#匹配单词字符
#输出：a
print(re.match('\W','???').group())#匹配非单词字符
#输出：?
#\s元字符
print(re.match('\s',' ').group())#匹配空白字符
#输出：（此处输出了一个空格）
print(re.match('\S','\n').group())#匹配非空白字符
#输出：AttributeError: 'NoneType' object has no attribute 'group'
#特殊符号元字符（换行符等）
print(re.match('\n','\n').group().__repr__())#匹配换行符
#输出：'\n'
print(re.match('\t','\t').group().__repr__())#匹配横向制表符
#输出：'\t'

匹配多个字符

import re
#问号元字符
print(re.match('What?','what',re.I).group())#匹配wha或者what，对大小写不敏感
#输出：what
#加号元字符
print(re.match('2+3','22223').group())#匹配一个或多个2再加上3
#输出：22223
#星号元字符
print(re.match('[abc]*','cba').group())#匹配任意个a或b或c
#输出：cba
#花括号元字符
print(re.match('(nb){3,}','NBnbNBnb',re.I).group())#匹配3个及3个以上的字符串nb，对大小写不敏感
#输出：NBnbNBnb
#竖线元字符
print(re.match('我去！|牛啊！','牛啊！').group())#匹配“我去！”或者“牛啊！”
#输出：牛啊！

匹配多组字符

在正则表达式里面使用圆括号会产生分组，若分组没有给定确切的组名，那么就从左往右按顺序以数字来命名，如

(123)([456]*)(\s+)

上面的正则表达式中就出现了 3 组，分别为 123、[456]* 和 \s+ ，组号就分别为 1、2 和 3，这都是属于捕获分组

特别说明

【捕获分组】分组且匹配，其内容将会被保存，组名按顺序以数字命名或者自定义具体组名，后续用命名进行引用

【非捕获分组】分组且匹配，没有组名，其内容不会被保存，后续将无法引用该组（或者说不需要用到）

import re
#圆括号一般捕获分组
Match_Onject_1 = re.match('(\d+)([a-z]*)\\2','123abcABC',re.I)#\\2表示引用第2个分组内容（即[a-z]*）
print(Match_Onject_1.group())#没有参数，表示输出全部匹配结果
#输出：123abcABC
print(Match_Onject_1.group(1))#输出组号为1的分组（第1个分组）
#输出：123
print(Match_Onject_1.group(2))#输出组号为2的分组（第2个分组）
#输出：abc
#自定义组名捕获分组
Match_Onject_2 = re.match('(?P<First>[abc]{2,3})(?P=First)!','abab!')#自定义分组名为First
print(Match_Onject_2.group())#没有参数，表示输出全部匹配结果
#输出：abab!
print(Match_Onject_2.group('First'))#输出组名为First的分组
#输出：ab
#一般非捕获分组
Match_Onject_3 = re.match('([123]{2})(?:\w)(nb)\\2','22znbnb')#\\2表示第2个分组，为nb（忽略了\w）
print(Match_Onject_3.group())#没有参数，表示输出全部匹配结果
#输出：22znbnb（匹配结果中含有z）
print(Match_Onject_3.group(2))#输出组号为2的分组（第2个分组）
#输出：nb
#正向肯定预查
print(re.match('[Pp]ython(?=3\\.\d{2})','Python3.10').group())#版本号必须是3.\d{2}的形式时才能匹配
#输出：Python（匹配结果中不含3.10）
#正向否定预查
print(re.match('[Pp]ython(?!3\\.[0-9]{2})','python2.7').group())#版本号不是3.\d{2}的形式时才能匹配
#输出：python（匹配结果中不含2.7）
#分组内不区分大小写
print(re.match('(?i:p)p','Pp').group())
#输出：Pp
#分组内点号元字符不匹配换行符
print(re.match('(?-s:.).','\n\n',re.S).group().__repr__())
#输出：AttributeError: 'NoneType' object has no attribute 'group'

匹配的起始与末尾

用于改变或检测匹配位置的元字符有下面四种

import re
#匹配Python源文件的文件名
#不会检测文件名开头是否符合一些要求
print(re.search('\w*\.py','#Hello_World.pyi').group())
#输出：Hello_World.py
#利用 $ 判断结尾是否符合要求
print(re.search('\w*\.py$','Hello_World.pyi').group())#字符串末尾多了个i，而不是空字符
#输出：AttributeError: 'NoneType' object has no attribute 'group'
#利用 ^ 判断起始是否符合要求
print(re.search('^\w*\.py','#Hello_World.py').group())#字符串开头多了个#，而不是空字符
#输出：AttributeError: 'NoneType' object has no attribute 'group'
#利用 \Z 判断结尾是否符合要求
print(re.search('\w*\.py\Z','Hello_World.pyi').group())#字符串末尾多了个i，而不是空字符
#输出：AttributeError: 'NoneType' object has no attribute 'group'
#利用 \A 判断起始是否符合要求
print(re.search('\A\w*\.py','#Hello_World.py').group())#字符串开头多了个#，而不是空字符
#输出：AttributeError: 'NoneType' object has no attribute 'group'

匹配的贪婪与非贪婪

Python语言默认是贪婪的，意思就是说，总是尝试匹配尽可能多的字符，反之，非贪婪就是尝试匹配尽可能少的字符

在元字符 *、?、+ 及 {} 后面加上一个 ? 来指定它们为非贪婪模式

import re
#正则表达式含义：匹配一个或多个数字字符，贪婪模式，尽可能多
Match_Object_1 = re.match('\d+','123')
#正则表达式含义：匹配一个或多个数字字符，非贪婪模式，尽可能少
Match_Object_2 = re.match('\d+?','123')
print(Match_Object_1.group())
#输出：123
print(Match_Object_2.group())
#输出：1

字符的转义与还原

在python里，字符的转义是由反斜杠 \ 实现的，如换行符 \n、横向制表符 \t 等等，但我们有时候并不想要它们转义的含义，而是想要它们原本的含义，即原生字符串，这个时候就有两种做法了

温馨提示：print 函数打印字符串的结果是转义后的结果，若想要原生字符串，请调用 __repr__ 方法后再用 print 输出

第一种操作

把转义用的反斜杠给还原，这样就不会产生转义字符了，也就实现了还原的目的，具体操作就是在反斜杠前再加上一个反斜杠

1. '\n' ————> '\\n'
2. '\t' ————> '\\t'

但这样不能高效地解决问题，如果转义字符很多就比较麻烦，或者比如你要匹配单个的反斜杠文本字符 \，那么你要先将其在正则表达式语法格式中还原为 \\，在再字符串语法中将其还原为 \\\\，极其的麻烦，于是就有了第二种操作

第二种操作

在字符串前面加上一个小写的 r 字母，其含义应该是 raw 的缩写，也可能是 repr 的缩写？（个人猜测），可以将操作的字符串中的转义字符还原为普通字符

1. '\n' ————> r'\n'
2. '\t' ————> r'\t'

经典案例

改变日期格式

将美国格式的日期（2/8/2022）改为中国格式（2022/8/2）

import re
print(re.sub('(\d+)/(\d+)/(\d+)','\\3/\\2/\\1','2/8/2022'))
#输出：2022/8/2
print(re.sub('(\d+)/(\d+)/(\d+)',r'\3/\2/\1','2/8/2022'))
#输出：2022/8/2

判断变量名是否正确

任意给一段字符串，判断其是否能作为一个变量名

import re
print(re.fullmatch('[^\d]+\w+','_name_').group())
#输出：_name_
print(re.fullmatch('[^\d]+\w+','What_Fuc*!!!').group())
#输出：AttributeError: 'NoneType' object has no attribute 'group'
print(re.fullmatch('[^\d]+\w+','123Yeah').group())
#输出：AttributeError: 'NoneType' object has no attribute 'group'

匹配邮箱地址

给定一个地址，匹配其是否为邮箱地址

import re
print(re.match('\w{4,20}@(126|163|qq)\\.com\Z','10086@163.com').group())
#输出：10086@163.com
print(re.match('\w{4,20}@(126|163|qq)\\.com$','110119120@qq.com').group())
#输出：110119120@qq.com

Python 正则表达式 re模块最全面超详细总结（下）

【sub函数】

【subn函数】

【template函数】

示例说明

匹配单个字符

匹配多个字符

匹配多组字符

匹配的起始与末尾

匹配的贪婪与非贪婪

字符的转义与还原

第一种操作

第二种操作

经典案例

改变日期格式

判断变量名是否正确

匹配邮箱地址

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python 正则表达式 re模块 最全面超详细总结（下）

【sub函数】

【subn函数】

【template函数】

示例说明

匹配单个字符

匹配多个字符

匹配多组字符

匹配的起始与末尾

匹配的贪婪与非贪婪

字符的转义与还原

第一种操作

第二种操作

经典案例

改变日期格式

判断变量名是否正确

匹配邮箱地址

热门文章

最新文章

相关课程

相关电子书

推荐镜像

Python 正则表达式 re模块最全面超详细总结（下）