python正则表达式与re模块

简介: python正则表达式与re模块

正则表达式

正则表达式即字符串模糊匹配,用于处理字符串。就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,在Python中它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。

字符匹配(普通字符,元字符):

  • 普通字符:大多数字符和字母都会和自身匹配,即完全匹配(每个字符一对一匹配),比如find/findall等方法。
  • 元字符:. ^ $ * + ? { } [ ] | ( ) \ ,前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配。

元字符

. 通配符

通配符可以匹配除了换行符\n之外的任何字符,一个点只能代表一个字符。

^

表示必须在开头才能匹配成功,要匹配的字符串必须在目标字符串开头 。

$

只有在结尾才能匹配成功,要匹配的字符串必须在目标字符串尾部。

*

匹配重复的字符(任意个重复字符:0-无穷个),没有该字符表示匹配到0个,贪婪匹配 ,尽可能匹配多的,按最多的重复次数去匹配比如*虽然可以匹配0个,但是如果有3个重复的字符会按照3个去匹配,而不是0个(尽可能匹配多),仅匹配*前面的一个字符。

+

匹配重复字符(1-无穷个),至少要匹配到一个,也是贪婪匹配,仅匹配+前面的一个字符。

?

匹配0或1次,贪婪匹配,仅匹配?前面的一个字符。

{}

自定义匹配次数 {0, }相当于*{1, }相当于+{0, 1}相当于?{6}表示匹配6次重复字符。

[]

字符集,在字符集内都是普通字符,包括*?等都是普通字符,但是有3个字符是有特殊意义的 ^ - \-表示范围,按ascii码的顺序排列的范围,[a-z]表示a到z所有的字符;^表示非,[^a-z]表示匹配不是a-z的字符;\是转义符,去除元字符的特殊功能或者给普通字符加上特殊功能。

示例:

ret=re.findall('a[bc]d','acd')
print(ret)#['acd']
ret=re.findall('[a-z]','acd')
print(ret)#['a', 'c', 'd']
ret=re.findall('[.*+]','a.cd+')
print(ret)#['.', '+']
#在字符集里有功能的符号: - ^ \
ret=re.findall('[1-9]','45dha3')
print(ret)#['4', '5', '3']
ret=re.findall('[^ab]','45bdha3')
print(ret)#['4', '5', 'd', 'h', '3']
ret=re.findall('[\d]','45bdha3')
print(ret)#['4', '5', '3'] 

\ 转义符

反斜杠后边跟元字符去除特殊功能,比如\.,反斜杠后边跟普通字符实现特殊功能,比如\d。具体如下:

  • \d 匹配任何十进制数,它相当于 [0-9]
  • \D 匹配任何非数字字符,它相当于 [^0-9]
  • \s 匹配任何空白字符,它相当于 [ \t\n\r\f\v]
  • \S 匹配任何非空白字符,它相当于 [^ \t\n\r\f\v]
  • \w 匹配任何字母数字字符,它相当于 [a-z A-Z 0-9 _]
  • \W 匹配任何非字母数字字符,它相当于 [^a-zA-Z0-9_]
  • \b 匹配一个特殊字符边界,比如空格 &等。

示例

import re
ret=re.findall('c\l','abc\le')
print(ret)#[]
ret=re.findall('c\\l','abc\le')
print(ret)#[]
ret=re.findall('c\\\\l','abc\le')
print(ret)#['c\\l']
ret=re.findall(r'c\\l','abc\le')
print(ret)#['c\\l']

特殊情况:python解释器遇上re转义符

m = re.findall('\bblow', 'blow')
print(m)
m = re.findall(r'\bblow', 'blow')
print(m)

我们在终端或者PyCharm中写的程序都是由python解释器来执行的,在re语言中\b是可以代表空格的,这没问题,但是我们在re.findall(“I\b”, “h I am”)中使用\b的时候,这条语句是被python解释器执行的,而\b在python中本身就是有特殊含义的(python中\也是转义符),当python拿到这句话re.findall(“I\b”, “h I am”)的时候,它会把\b翻译成python中所代表的含义,然后把翻译后的内容扔到re模块中,所以,到了re模块后\b已经不是\b了,而是其它内容(python解释器翻译后的内容)。解决方法有:

  • re.findall(r“I\b”, “h I am”) r表示原生字符串,告诉python解释器不做任何转义,这样python解释器传给re模块的\b就是\b,python解释器这一层不会做任何操作;
  • re.findall(“I\\b”, “h I am”) python解释器遇到\开始转义\\就是把\的转义功能去掉,变成一个普通字符\,这样python解释器传给re模块的也是\b本身。

re.findall(“a\\\\k”, “a\k”) 相当于 re.findall(r“a\k”, “a\k”) ,传给re的只有\\两个反斜杠,表示去除\的特殊含义,也就是匹配\k。

() 分组

m = re.findall(r'(ad)+', 'add')
print(m)
ret=re.search('(?P<id>\d{2})/(?P<name>\w{3})','23/com')
print(ret.group())#23/com
print(ret.group('id'))#23

?P<name>表示把匹配的内容做一个分组叫name,我们可以通过name取值。

()是有优先级的,会优先返回分组内的字符串,可以通过?:去掉括号优先级。

|

re模块常用方法

导入模块

import re

1、 findall 匹配所有并返回为列表

返回所有满足匹配条件的结果,放在列表里。匹配所有,返回列表。

re.findall('a','alvin yuan')    

2、 search 匹配第一个并返回对象

函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。匹配第一个,匹配成功返回对象,匹配失败返回None。

re.search('a','alvin yuan').group()

3、 match 仅匹配头部,并返回对象

re.match('a','abc').group()     #同search,不过仅在字符串开始处进行匹配

4、 split 分割字符串

ret=re.split('[ab]','abcd')     #先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret) #['', '', 'cd']

5、 sub 替换

ret=re.sub('\d','abc','alvin5yuan6',1) #仅匹配前1次
print(ret)#alvinabcyuan6

ret=re.subn('\d','abc','alvin5yuan6') #返回元组(匹配后字符串,匹配次数)
print(ret)#('alvinabcyuanabc', 2)

6、 compile 编译

obj=re.compile('\d{3}') #把规则提前编译好
ret=obj.search('abc123eeee')
print(ret.group())#123

7、 finditer编译

import re
ret=re.finditer('\d','ds3sy4784a')
print(ret)        #<callable_iterator object at 0x10195f940>
print(next(ret).group())
print(next(ret).group())

findall把所有结果放到一个列表中,finditer把结果放到一个迭代器中并返回一个迭代器对象,在大数据场景中,使用迭代器可以需要一条就处理一条,高效省内存。

注意事项

ret=re.findall('www.(baidu|oldboy).com','www.oldboy.com')
print(ret)#['oldboy']    

这是因为findall会优先把匹配结果分组里的内容返回,如果想要匹配结果,取消权限即可,在匹配规则中如果使用了分组,findall会优先把分组内的匹配内容返回出来,可通过?:去优先级来返回全部匹配结果。分组的符号()是有优先级的,括号内优先级高,通过?:就可以去掉()的优先级。

ret=re.findall('www.(?:baidu|oldboy).com','www.oldboy.com')
print(ret)#['www.oldboy.com']

相关文章
|
2天前
|
监控 安全 程序员
Python日志模块配置:从print到logging的优雅升级指南
从 `print` 到 `logging` 是 Python 开发的必经之路。`print` 调试简单却难维护,日志混乱、无法分级、缺乏上下文;而 `logging` 支持级别控制、多输出、结构化记录,助力项目可维护性升级。本文详解痛点、优势、迁移方案与最佳实践,助你构建专业日志系统,让程序“有记忆”。
39 0
|
23天前
|
安全 大数据 程序员
Python operator模块的methodcaller:一行代码搞定对象方法调用的黑科技
`operator.methodcaller`是Python中处理对象方法调用的高效工具,替代冗长Lambda,提升代码可读性与性能。适用于数据过滤、排序、转换等场景,支持参数传递与链式调用,是函数式编程的隐藏利器。
73 4
|
17天前
|
存储 数据库 开发者
Python SQLite模块:轻量级数据库的实战指南
本文深入讲解Python内置sqlite3模块的实战应用,涵盖数据库连接、CRUD操作、事务管理、性能优化及高级特性,结合完整案例,助你快速掌握SQLite在小型项目中的高效使用,是Python开发者必备的轻量级数据库指南。
144 0
|
6月前
|
数据采集 监控 数据安全/隐私保护
Python正则表达式:用"模式密码"解锁复杂字符串
正则表达式是处理字符串的强大工具,本文以Python的`re`模块为核心,详细解析其原理与应用。从基础语法如字符类、量词到进阶技巧如贪婪匹配与预定义字符集,结合日志分析、数据清洗及网络爬虫等实战场景,展示正则表达式的强大功能。同时探讨性能优化策略(如预编译)和常见错误解决方案,帮助开发者高效掌握这一“瑞士军刀”。最后提醒,合理使用正则表达式,避免过度复杂化,追求简洁优雅的代码风格。
155 0
|
11月前
|
开发者 Python
如何在Python中管理模块和包的依赖关系?
在实际开发中,通常会结合多种方法来管理模块和包的依赖关系,以确保项目的顺利进行和可维护性。同时,要及时更新和解决依赖冲突等问题,以保证代码的稳定性和可靠性
326 62
|
2月前
|
存储 安全 数据处理
Python 内置模块 collections 详解
`collections` 是 Python 内置模块,提供多种高效数据类型,如 `namedtuple`、`deque`、`Counter` 等,帮助开发者优化数据处理流程,提升代码可读性与性能,适用于复杂数据结构管理与高效操作场景。
115 0
|
3月前
|
数据安全/隐私保护 Python
抖音私信脚本app,协议私信群发工具,抖音python私信模块
这个实现包含三个主要模块:抖音私信核心功能类、辅助工具类和主程序入口。核心功能包括登录
|
6月前
|
Python
Python教程:os 与 sys 模块详细用法
os 模块用于与操作系统交互,主要涉及夹操作、路径操作和其他操作。例如,`os.rename()` 重命名文件,`os.mkdir()` 创建文件夹,`os.path.abspath()` 获取文件绝对路径等。sys 模块则用于与 Python 解释器交互,常用功能如 `sys.path` 查看模块搜索路径,`sys.platform` 检测操作系统等。这些模块提供了丰富的工具,便于开发中处理系统和文件相关任务。
260 14
|
10月前
|
Python
Python Internet 模块
Python Internet 模块。
217 74
|
7月前
|
人工智能 自然语言处理 Shell
[oeasy]python070_如何导入模块_导入模块的作用_hello_dunder_双下划线
本文介绍了如何在Python中导入模块及其作用,重点讲解了`__hello__`模块的导入与使用。通过`import`命令可以将外部模块引入当前环境,增强代码功能。例如,导入`__hello__`模块后可输出“Hello world!”。此外,还演示了如何使用`help()`和`dir()`函数查询模块信息,并展示了导入多个模块的方法。最后,通过一个实例,介绍了如何利用`jieba`、`WordCloud`和`matplotlib`模块生成词云图。总结来说,模块是封装好的功能部件,能够简化编程任务并提高效率。未来将探讨如何创建自定义模块。
88 8

推荐镜像

更多