Python 正则表达式 re模块 最全面超详细总结(下)

简介: Python 正则表达式 re模块 最全面超详细总结(下)

【sub函数】

函数语法

sub(pattern: str | Pattern[str], repl: str | (Match[str]), string: str, count: int = ...,

【参数 pattern】正则表达式字符串或者Pattern类


【参数 repl】要替换为的字符串或者函数(函数必须接收一个Match类,并返回一个字符串)


【参数 string】要进行操作的字符串


【参数 count】替换次数,从左往右计数,默认为对象ellipsis,即完全替换,若设为0也将完全替换


【参数 flags】可选标志,修饰符,默认不进行修饰


函数将把 string 中满足正则表达式的部分替换为 repl(如果repl是字符串),或者按照某种字符串生成规则(repl 为函数),替换为相应的字符串,返回替换后的字符串

代码示例

import re
#替换为固定的字符串
print(re.sub('\w*','!','123Python'))
#输出:!!(仔细体会为什么是两个感叹号)
def repl(match:re.Match):
    #repl替换函数
    #接收一个Match类
    #返回一个字符串
    return str(int(match.group())**2)
#替换为某种字符串(由替换函数决定)
print(re.sub('\d',repl,'123'))
#输出:149

【subn函数】

函数语法

subn(pattern: str | Pattern[str], repl: str | (Match[str]), string: str, count: int = ..., f

【参数 pattern】正则表达式字符串或者Pattern类


【参数 repl】要替换为的字符串或者函数(函数必须接收一个Match类,并返回一个字符串)


【参数 string】要进行操作的字符串


【参数 count】替换次数,从左往右计数,默认为对象ellipsis,即完全替换,若设为0也将完全替换


【参数 flags】可选标志,修饰符,默认不进行修饰


与 sub 函数类似,但是返回一个元组(tuple[str, int]),为替换后的字符串以及原字符串的总替换次数

代码示例

import re
#替换为固定的字符串
print(re.subn('\w+','!','123Python'))
#输出:('!', 1)
def repl(match:re.Match):
    #repl替换函数
    #接收一个Match类
    #返回一个字符串
    return str(int(match.group())**2)
#替换为某种字符串(由替换函数决定)
#替换次数:2次
print(re.subn('\d',repl,'123',2))
#输出:('143', 2)

【template函数】

函数语法

template(pattern: AnyStr@template | Pattern[AnyStr@template], flags: _FlagsType = ...)

【参数 pattern】一个正则表达式字符串


【参数 flags】可选标志,修饰符,默认不进行修饰


和 compile 函数类似,编译正则表达式函数,将正则表达式字符串编译为 Pattern 对象(Pattern[AnyStr@template]),但其返回的 Pattern 对象多了一个修饰符 T(TEMPLATE)

代码示例

import re
print(re.template('\d'))
#输出:re.compile('\\d', re.TEMPLATE)
print(re.template('\d').match('123').group())
#输出:1

示例说明

匹配单个字符

匹配单个字符的比较简单,下面这些元字符是用于匹配单个字符的image.png

import re
#点号元字符
print(re.match('.','\n').group())#点号元字符默认不包含换行符
#输出:AttributeError: 'NoneType' object has no attribute 'group'
print(re.match('.','\n',re.S).group().__repr__())#S修饰符使换行符被包括
#输出:'\n'
#方括号元字符
print(re.match('[abc]','b').group())#匹配abc任意其一
#输出:b
print(re.match('[!-/:-@]','?').group())#匹配标点符号
#输出:?
#\d元字符
print(re.match('\d','666').group())#匹配数字字符
#输出:6
print(re.match('\D','nb').group())#匹配非数字字符
#输出:n
#\w元字符
print(re.match('\w','abc').group())#匹配单词字符
#输出:a
print(re.match('\W','???').group())#匹配非单词字符
#输出:?
#\s元字符
print(re.match('\s',' ').group())#匹配空白字符
#输出:(此处输出了一个空格)
print(re.match('\S','\n').group())#匹配非空白字符
#输出:AttributeError: 'NoneType' object has no attribute 'group'
#特殊符号元字符(换行符等)
print(re.match('\n','\n').group().__repr__())#匹配换行符
#输出:'\n'
print(re.match('\t','\t').group().__repr__())#匹配横向制表符
#输出:'\t'

匹配多个字符image.png

import re
#问号元字符
print(re.match('What?','what',re.I).group())#匹配wha或者what,对大小写不敏感
#输出:what
#加号元字符
print(re.match('2+3','22223').group())#匹配一个或多个2再加上3
#输出:22223
#星号元字符
print(re.match('[abc]*','cba').group())#匹配任意个a或b或c
#输出:cba
#花括号元字符
print(re.match('(nb){3,}','NBnbNBnb',re.I).group())#匹配3个及3个以上的字符串nb,对大小写不敏感
#输出:NBnbNBnb
#竖线元字符
print(re.match('我去!|牛啊!','牛啊!').group())#匹配“我去!”或者“牛啊!”
#输出:牛啊!

匹配多组字符

在正则表达式里面使用圆括号会产生分组,若分组没有给定确切的组名,那么就从左往右按顺序以数字来命名,如

(123)([456]*)(\s+)

上面的正则表达式中就出现了 3 组,分别为 123、[456]* 和 \s+ ,组号就分别为 1、2 和 3,这都是属于捕获分组

特别说明

【捕获分组】分组且匹配,其内容将会被保存,组名按顺序以数字命名或者自定义具体组名,后续用命名进行引用

【非捕获分组】分组且匹配,没有组名,其内容不会被保存,后续将无法引用该组(或者说不需要用到)image.png

import re
#圆括号一般捕获分组
Match_Onject_1 = re.match('(\d+)([a-z]*)\\2','123abcABC',re.I)#\\2表示引用第2个分组内容(即[a-z]*)
print(Match_Onject_1.group())#没有参数,表示输出全部匹配结果
#输出:123abcABC
print(Match_Onject_1.group(1))#输出组号为1的分组(第1个分组)
#输出:123
print(Match_Onject_1.group(2))#输出组号为2的分组(第2个分组)
#输出:abc
#自定义组名捕获分组
Match_Onject_2 = re.match('(?P<First>[abc]{2,3})(?P=First)!','abab!')#自定义分组名为First
print(Match_Onject_2.group())#没有参数,表示输出全部匹配结果
#输出:abab!
print(Match_Onject_2.group('First'))#输出组名为First的分组
#输出:ab
#一般非捕获分组
Match_Onject_3 = re.match('([123]{2})(?:\w)(nb)\\2','22znbnb')#\\2表示第2个分组,为nb(忽略了\w)
print(Match_Onject_3.group())#没有参数,表示输出全部匹配结果
#输出:22znbnb(匹配结果中含有z)
print(Match_Onject_3.group(2))#输出组号为2的分组(第2个分组)
#输出:nb
#正向肯定预查
print(re.match('[Pp]ython(?=3\\.\d{2})','Python3.10').group())#版本号必须是3.\d{2}的形式时才能匹配
#输出:Python(匹配结果中不含3.10)
#正向否定预查
print(re.match('[Pp]ython(?!3\\.[0-9]{2})','python2.7').group())#版本号不是3.\d{2}的形式时才能匹配
#输出:python(匹配结果中不含2.7)
#分组内不区分大小写
print(re.match('(?i:p)p','Pp').group())
#输出:Pp
#分组内点号元字符不匹配换行符
print(re.match('(?-s:.).','\n\n',re.S).group().__repr__())
#输出:AttributeError: 'NoneType' object has no attribute 'group'

匹配的起始与末尾

用于改变或检测匹配位置的元字符有下面四种image.png

import re
#匹配Python源文件的文件名
#不会检测文件名开头是否符合一些要求
print(re.search('\w*\.py','#Hello_World.pyi').group())
#输出:Hello_World.py
#利用 $ 判断结尾是否符合要求
print(re.search('\w*\.py$','Hello_World.pyi').group())#字符串末尾多了个i,而不是空字符
#输出:AttributeError: 'NoneType' object has no attribute 'group'
#利用 ^ 判断起始是否符合要求
print(re.search('^\w*\.py','#Hello_World.py').group())#字符串开头多了个#,而不是空字符
#输出:AttributeError: 'NoneType' object has no attribute 'group'
#利用 \Z 判断结尾是否符合要求
print(re.search('\w*\.py\Z','Hello_World.pyi').group())#字符串末尾多了个i,而不是空字符
#输出:AttributeError: 'NoneType' object has no attribute 'group'
#利用 \A 判断起始是否符合要求
print(re.search('\A\w*\.py','#Hello_World.py').group())#字符串开头多了个#,而不是空字符
#输出:AttributeError: 'NoneType' object has no attribute 'group'

匹配的贪婪与非贪婪

Python语言默认是贪婪的,意思就是说,总是尝试匹配尽可能多的字符,反之,非贪婪就是尝试匹配尽可能少的字符

在元字符 *、?、+ 及 {} 后面加上一个 ? 来指定它们为非贪婪模式

import re
#正则表达式含义:匹配一个或多个数字字符,贪婪模式,尽可能多
Match_Object_1 = re.match('\d+','123')
#正则表达式含义:匹配一个或多个数字字符,非贪婪模式,尽可能少
Match_Object_2 = re.match('\d+?','123')
print(Match_Object_1.group())
#输出:123
print(Match_Object_2.group())
#输出:1

字符的转义与还原

在python里,字符的转义是由反斜杠 \ 实现的,如换行符 \n、横向制表符 \t 等等,但我们有时候并不想要它们转义的含义,而是想要它们原本的含义,即原生字符串,这个时候就有两种做法了

温馨提示:print 函数打印字符串的结果是转义后的结果,若想要原生字符串,请调用 __repr__ 方法后再用 print 输出

第一种操作

把转义用的反斜杠给还原,这样就不会产生转义字符了,也就实现了还原的目的,具体操作就是在反斜杠前再加上一个反斜杠

1. '\n' ————> '\\n'
2. '\t' ————> '\\t'

但这样不能高效地解决问题,如果转义字符很多就比较麻烦,或者比如你要匹配单个的反斜杠文本字符 \,那么你要先将其在正则表达式语法格式中还原为 \\,在再字符串语法中将其还原为 \\\\,极其的麻烦,于是就有了第二种操作

第二种操作

在字符串前面加上一个小写的 r 字母,其含义应该是 raw 的缩写,也可能是 repr 的缩写?(个人猜测),可以将操作的字符串中的转义字符还原为普通字符

1. '\n' ————> r'\n'
2. '\t' ————> r'\t'

经典案例

改变日期格式

将美国格式的日期(2/8/2022)改为中国格式(2022/8/2)

import re
print(re.sub('(\d+)/(\d+)/(\d+)','\\3/\\2/\\1','2/8/2022'))
#输出:2022/8/2
print(re.sub('(\d+)/(\d+)/(\d+)',r'\3/\2/\1','2/8/2022'))
#输出:2022/8/2

判断变量名是否正确

任意给一段字符串,判断其是否能作为一个变量名

import re
print(re.fullmatch('[^\d]+\w+','_name_').group())
#输出:_name_
print(re.fullmatch('[^\d]+\w+','What_Fuc*!!!').group())
#输出:AttributeError: 'NoneType' object has no attribute 'group'
print(re.fullmatch('[^\d]+\w+','123Yeah').group())
#输出:AttributeError: 'NoneType' object has no attribute 'group'

匹配邮箱地址

给定一个地址,匹配其是否为邮箱地址

import re
print(re.match('\w{4,20}@(126|163|qq)\\.com\Z','10086@163.com').group())
#输出:10086@163.com
print(re.match('\w{4,20}@(126|163|qq)\\.com$','110119120@qq.com').group())
#输出:110119120@qq.com
目录
相关文章
|
8月前
|
SQL 关系型数据库 数据库
Python SQLAlchemy模块:从入门到实战的数据库操作指南
免费提供Python+PyCharm编程环境,结合SQLAlchemy ORM框架详解数据库开发。涵盖连接配置、模型定义、CRUD操作、事务控制及Alembic迁移工具,以电商订单系统为例,深入讲解高并发场景下的性能优化与最佳实践,助你高效构建数据驱动应用。
928 7
|
8月前
|
监控 安全 程序员
Python日志模块配置:从print到logging的优雅升级指南
从 `print` 到 `logging` 是 Python 开发的必经之路。`print` 调试简单却难维护,日志混乱、无法分级、缺乏上下文;而 `logging` 支持级别控制、多输出、结构化记录,助力项目可维护性升级。本文详解痛点、优势、迁移方案与最佳实践,助你构建专业日志系统,让程序“有记忆”。
686 0
|
8月前
|
JSON 算法 API
Python中的json模块:从基础到进阶的实用指南
本文深入解析Python内置json模块的使用,涵盖序列化与反序列化核心函数、参数配置、中文处理、自定义对象转换及异常处理,并介绍性能优化与第三方库扩展,助你高效实现JSON数据交互。(238字)
652 4
|
数据采集 监控 数据安全/隐私保护
Python正则表达式:用"模式密码"解锁复杂字符串
正则表达式是处理字符串的强大工具,本文以Python的`re`模块为核心,详细解析其原理与应用。从基础语法如字符类、量词到进阶技巧如贪婪匹配与预定义字符集,结合日志分析、数据清洗及网络爬虫等实战场景,展示正则表达式的强大功能。同时探讨性能优化策略(如预编译)和常见错误解决方案,帮助开发者高效掌握这一“瑞士军刀”。最后提醒,合理使用正则表达式,避免过度复杂化,追求简洁优雅的代码风格。
344 0
|
9月前
|
安全 大数据 程序员
Python operator模块的methodcaller:一行代码搞定对象方法调用的黑科技
`operator.methodcaller`是Python中处理对象方法调用的高效工具,替代冗长Lambda,提升代码可读性与性能。适用于数据过滤、排序、转换等场景,支持参数传递与链式调用,是函数式编程的隐藏利器。
260 4
|
8月前
|
Java 调度 数据库
Python threading模块:多线程编程的实战指南
本文深入讲解Python多线程编程,涵盖threading模块的核心用法:线程创建、生命周期、同步机制(锁、信号量、条件变量)、线程通信(队列)、守护线程与线程池应用。结合实战案例,如多线程下载器,帮助开发者提升程序并发性能,适用于I/O密集型任务处理。
733 0
|
8月前
|
XML JSON 数据处理
超越JSON:Python结构化数据处理模块全解析
本文深入解析Python中12个核心数据处理模块,涵盖csv、pandas、pickle、shelve、struct、configparser、xml、numpy、array、sqlite3和msgpack,覆盖表格处理、序列化、配置管理、科学计算等六大场景,结合真实案例与决策树,助你高效应对各类数据挑战。(238字)
1061 0
|
9月前
|
存储 数据库 开发者
Python SQLite模块:轻量级数据库的实战指南
本文深入讲解Python内置sqlite3模块的实战应用,涵盖数据库连接、CRUD操作、事务管理、性能优化及高级特性,结合完整案例,助你快速掌握SQLite在小型项目中的高效使用,是Python开发者必备的轻量级数据库指南。
747 0
|
10月前
|
存储 安全 数据处理
Python 内置模块 collections 详解
`collections` 是 Python 内置模块,提供多种高效数据类型,如 `namedtuple`、`deque`、`Counter` 等,帮助开发者优化数据处理流程,提升代码可读性与性能,适用于复杂数据结构管理与高效操作场景。
588 0
|
11月前
|
数据安全/隐私保护 Python
抖音私信脚本app,协议私信群发工具,抖音python私信模块
这个实现包含三个主要模块:抖音私信核心功能类、辅助工具类和主程序入口。核心功能包括登录