re库:Python中正则表达式的处理与应用(一)

简介: re库:Python中正则表达式的处理与应用(一)

前言


re库就是我们常说的正则表达式库,它是用一种形式化语法来描述的文本匹配模式。通过该库,我们可以匹配特定字符串中的一些内容,比如爬取网页内容时,我们可以通过re库获取网页内容中的所有标签内容。


本篇将详细讲解re库的使用规则。


查找文本


比如,在一串字符串文本中,我们需要查找一个子字符串是否在该字符串中,并返回其具体的位置索引,该怎么做呢?

import re
content = "My name is Li Yuanjing"
pattern = "name"
match = re.search(pattern, content)
print(match.start())
print(match.end())


运行之后,效果如下:


这里,我们通过re.search()函数查找字符串pattern是否在content字符串中。可以看到,其返回了pattern字符串在content字符串的开始索引与结束索引位置。


多重匹配


不过,在平常的项目中,往往并不是仅仅只有一个匹配结果,可能有时候会有多个匹配结果出现。这个时候,我们需要使用re.findall()函数实现多重匹配。

import re
content = "asasssasasasaaasasasasssasasa"
pattern = "sa"
for match in re.findall(pattern, content):
    print(match)


运行之后,效果如下:


这里,我们匹配了11个。不过这里是返回的match字符串,并不是和上面一个返回的一个Match示例,我现在想要获取所有多重匹配结果的索引位置怎么办?

import re
content = "asasssasasasaaasasasasssasasa"
pattern = "sa"
for match in re.finditer(pattern, content):
    print(match.start(),match.end())


运行之后,效果如下:


使用re.finditer()函数返回的是一个迭代器,它会生成Match实例。


元字符(锚定码)


像上面的的一个字符串,里面有多个子字符串,通过匹配肯定会返回多个结果。现在,我们有一个需求,不管字符串里面有多个匹配结果,我们只需要第一个怎么操作呢?


当然,这里我们还是可以如上面代码一样先找到所有,再取第一个就行。但其实我们可以通过元字符一步就达成。首先,我们先来看看元字符有哪些?

元字符 含义
. 表示匹配任意一个字符(除了换行符)
^ 表示从字符串开头开始匹配
$ 表示从字符串末尾开始匹配
* 表示匹配某个字符匹配0到无穷次
+ 表示匹配某个字符匹配1到无穷次
表示匹配某个字符匹配0或1次
{} 表示匹配某个字符匹配任意次
[] 为或的意思,匹配其中任一项,其中里边除了 - \和^没有特殊符号
\A 字符串开头
\Z 字符串末尾
\b 单词开头或末尾的空串
\B 不在单词开头或末尾的空串

下面,我们来实现从末尾匹配,只匹配一个结果。具体代码如下所示:

import re
content = "name123name321name213name321name123"
print(len(content))
for match in re.finditer("123$", content):
    print(match.start(), match.end())
print(re.findall("name*", content))
print(re.findall("name+", content))
print(re.findall("name?", content))
print(re.findall("name{5}", content))
print(re.findall("name{1,5}", content))
print(re.findall("name[12]", content))


运行之后,效果如下:


转义码


除了元字符之外,我们还可以通过转义码匹配特定的字符,比如上面的元字符只能匹配后面有多少个字符,并不能区分数字或者字母等其他的内容。下面,我们来看看正则表达式中常用的转义码。

转义码 含义
\d 匹配数字
\D 匹配非数字
\s 匹配空白符(制表符,空格,换行等)
\S 匹配非空白符
\w 字母数字
\W 非字母数字

这里,我们来分别匹配看看效果,具体代码如下所示:

import re
content = "name 123"
print(re.findall("\d", content))
print(re.findall("\D", content))
print(re.findall("\s", content))
print(re.findall("\S", content))
print(re.findall("\w", content))
print(re.findall("\W", content))
#结合前面元字符,可以实现贪婪匹配
print(re.findall("\w*", content))


运行之后,效果如下:


fullmatch()


在有些时候,我们并不是需要在字符串中找到某些规则的子集。而是判断某些字符串是否是邮箱,或者是电话等。这个时候,就需要整个字符串与模式匹配,re库提供了fullmatch()函数用于整个模式的匹配。

import re
content = "liyuanjinglyj@163.com"
pattern = "^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$"
s = re.fullmatch(pattern, content)
if s is None:
    print("字符串不是邮箱")
else:
    print("字符串是邮箱")


编译表达式


虽然说,通过上面的方式进行re库的使用可以完成字符串的匹配,但是对于程序频繁使用的表达式而言,编译它们会更加的高效。compile()函数就可以把一个表达式字符串转换为RegexObject使用。具体代码如下:

import re
content = "liyuanjinglyj@163.com"
pattern = "^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$"
regex = re.compile(pattern)
s = regex.search(content)
print(s[0])


组解析匹配


在上面的邮箱匹配中,我们可以用编译表达式判断邮箱字符串是否完全匹配。不过,现在假如我们有一个更大的需求,就是获取邮箱的域名,用户名。很显然上面的知识只能匹配整个字符串,或者分别创建两个pattern进行匹配。


这样往往非常耗时,还增加了代码的冗余程度。所以,我们需要掌握re库的组解析匹配。具体代码如下:

import re
content = "liyuanjinglyj@163.com"
pattern = "^([A-Za-z0-9\u4e00-\u9fa5]+)@([a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+)$"
regex = re.compile(pattern)
match = regex.search(content)
print(match.groups())
print("邮箱的用户名:", match.group(1))
print("邮箱的域名为:", match.group(2))


运行之后,效果如下:


可以看到,组匹配其实就是将匹配的规则字符串用“()”设定为一组。不过,需要注意的是,这里match.gourps(0)并不是上面显示的第一个字符串“liyuanjinglyj”,而是完整的字符串结果"liyuanjinglyj@163.com"。简而言之,match.gourps(0)是所有匹配的字符串,从match.gourps(1)开始才是用()分组的解析内容。

相关文章
|
4月前
|
监控 数据可视化 数据挖掘
Python Rich库使用指南:打造更美观的命令行应用
Rich库是Python的终端美化利器,支持彩色文本、智能表格、动态进度条和语法高亮,大幅提升命令行应用的可视化效果与用户体验。
357 0
|
5月前
|
数据采集 监控 Java
Python 函数式编程的执行效率:实际应用中的权衡
Python 函数式编程的执行效率:实际应用中的权衡
296 102
|
7月前
|
机器学习/深度学习 数据采集 算法
Python AutoML框架选型攻略:7个工具性能对比与应用指南
本文系统介绍了主流Python AutoML库的技术特点与适用场景,涵盖AutoGluon、PyCaret、TPOT、Auto-sklearn、H2O AutoML及AutoKeras等工具,帮助开发者根据项目需求高效选择自动化机器学习方案。
837 1
|
6月前
|
存储 数据可视化 BI
Python可视化应用——学生成绩分布柱状图展示
本程序使用Python读取Excel中的学生成绩数据,统计各分数段人数,并通过Matplotlib库绘制柱状图展示成绩分布。同时计算最高分、最低分及平均分,实现成绩可视化分析。
522 0
|
4月前
|
机器学习/深度学习 算法 安全
【强化学习应用(八)】基于Q-learning的无人机物流路径规划研究(Python代码实现)
【强化学习应用(八)】基于Q-learning的无人机物流路径规划研究(Python代码实现)
343 6
|
9月前
|
数据采集 监控 数据安全/隐私保护
Python正则表达式:用"模式密码"解锁复杂字符串
正则表达式是处理字符串的强大工具,本文以Python的`re`模块为核心,详细解析其原理与应用。从基础语法如字符类、量词到进阶技巧如贪婪匹配与预定义字符集,结合日志分析、数据清洗及网络爬虫等实战场景,展示正则表达式的强大功能。同时探讨性能优化策略(如预编译)和常见错误解决方案,帮助开发者高效掌握这一“瑞士军刀”。最后提醒,合理使用正则表达式,避免过度复杂化,追求简洁优雅的代码风格。
254 0
|
4月前
|
设计模式 缓存 运维
Python装饰器实战场景解析:从原理到应用的10个经典案例
Python装饰器是函数式编程的精华,通过10个实战场景,从日志记录、权限验证到插件系统,全面解析其应用。掌握装饰器,让代码更优雅、灵活,提升开发效率。
331 0
|
5月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
347 0
|
6月前
|
存储 监控 安全
企业上网监控系统中红黑树数据结构的 Python 算法实现与应用研究
企业上网监控系统需高效处理海量数据,传统数据结构存在性能瓶颈。红黑树通过自平衡机制,确保查找、插入、删除操作的时间复杂度稳定在 O(log n),适用于网络记录存储、设备信息维护及安全事件排序等场景。本文分析红黑树的理论基础、应用场景及 Python 实现,并探讨其在企业监控系统中的实践价值,提升系统性能与稳定性。
188 1
|
5月前
|
存储 程序员 数据处理
Python列表基础操作全解析:从创建到灵活应用
本文深入浅出地讲解了Python列表的各类操作,从创建、增删改查到遍历与性能优化,内容详实且贴近实战,适合初学者快速掌握这一核心数据结构。
595 0