Python学习十:正则表达式

简介: 这篇文章是关于Python中正则表达式的使用,包括re模块的函数、特殊字符、匹配模式以及贪婪与非贪婪模式的详细介绍。

前言

对应GitHub代码地址:https://github.com/fengfanli/studyPython

对应的包是: study11_正则表达式

一、正则表达式

1. 正则表达式

正则表达式,英文名为Regular Expression,又称规则表达式。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

在主流操作系统(*nix[Linux, Unix等]、Windows、HP、BeOS等)、主流的开发语言(delphi、Scala、PHP、C#、Java、C++、Objective-c、Swift、VB、Javascript、Ruby以及Python等)、数以亿万计的各种应用软件中,都可以看到正则表达式优美的舞姿。

1. Python正则表达式

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。同时,re 模块是用c语言写的,其匹配速度非常快。
其中compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

二、匹配字符串 re模块

re.match 尝试从字符串的起始位置匹配一个规则,匹配成功就返回match对象,否则返回None。可以使用group()获取匹配成功的字符串。
语法:re.match(pattern, string, flags=0)
参数说明:
在这里插入图片描述

示例1(无标志位):

import re 
str = 'Python is the best language in the world’ 
# match 只能匹配以xxx开头的子符串,第一个参数是正则,第二个参数是需要匹配的字符串 
res = re.match('P',str) 
res.group() # 匹配成功使用group方法取出字符串 
'P'

示例2(有标志位):

import re 
str = 'Python is the best language in the world’ 
res = re.match(‘p’,str,re.I) 
res.group() 
'P'

如果同时使用多个标志位使用|分割,比如re.I | re.M
flags可选标志位
在这里插入图片描述

  1. .(点)的使用:匹配单个字符,除了换行符\ n 和 非字符 除外
  2. [] 中括号的使用:匹配中括号中的任意一个字符
  3. \d 的使用:匹配一个数字
  4. \D 的使用:匹配一个非数字
  5. \s 的使用:匹配一个空白字符 或者tab键
  6. \S 的使用:匹配非空白字符
  7. \w 的使用:匹配单词字符,即a-z、A-Z、0-9、_
  8. \W 的使用:匹配非[a-z、A-Z、0-9]单词字符

三、匹配字符数量

    • 的使用:匹配 前一个字符 出现0次或者无限次,即可有可无
    • 的使用:匹配前一个字符出现 1 次或者无限次,即至少有 1 次
  1. ? 的使用:告诉引擎匹配前导字符 0 次或者一次,事实上表示前导字符是可以选择的
  2. {min} 的使用:告诉引擎匹配前导字符min次
  3. {min,} 的使用:告诉引擎匹配前导字符大于等于min次
  4. {min,max} 的使用:告诉引擎匹配前导字符min次到max次 ,min和max必须都是非负整数

四、匹配原生字符串

python字符串中\作为转义字符开头,比如\n表示换行,\t表示tab键,为了表示\本身,再加一个\,成为\形式 在python中表示路径‘G:\py资料\1-上课资料\4-正则表达式课件\html’

mypath = 'G:\py资料\1-上课资料\4-正则表达式课件\html’ 
print(mypath) # 路劲输出异常 
G:\py资料-上课资料-正则表达式课件\html 

mypath = 'G:\\py资料\\1-上课资料\\4-正则表达式课件\\html’ 
print(mypath) # 将\转义之后正常 
G:\py资料\1-上课资料\4-正则表达式课件\html 
>>>

正则表达式里使用"“作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”",那么使用编程语言表示的正则表达式里将需要4个反斜杠""。
在python中有原生字符串,在字符串前面加上r表示字符串中的\不转义。

五、 匹配开头和结尾

  1. ^ 的使用:匹配字符串的开头
  2. $ 的使用:匹配邮箱的结尾

在这里插入图片描述

示例:匹配163.com的邮箱地址

import re 
# 正确地址 
ret = re.match('[\w]{4,20}@163\.com','python@163.com’) 
ret.group() 
'python@163.com’ 
# 不正确地址 
ret = re.match('[\w]{4,20}@163\.com','python@163.comsdsdds’) 
ret.group() 
'python@163.com’ 
# 通过$来限定结尾  
ret = re.match('[\w]{4,20}@163\.com$','python@163.comsdsdds’) 
ret.group() 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
AttributeError: 'NoneType' object has no attribute 'group’

六、 分组匹配

在这里插入图片描述

七、 匹配开头和结尾

1. compile 方法

compile 将正则表达式模式编译成一个正则表达式对象
reg = re.compile(pattern) result = reg.match(string)
等效于 result = re.match(pattern, string)
使用re.compile()和保存所产生的正则表达式对象重用效率更高

2. search 方法

search 在全文中匹配一次,匹配到就返回
语法:re.search(pattern, string, flags=0)
函数参数说明:
在这里插入图片描述

3. findall 方法

findall 匹配所有返回一个列表,这个方法使用频率较高。
语法:findall(string[, pos[, endpos]])
参数说明:
在这里插入图片描述

4.sub

sub 将匹配到的数据进行替换
语法:sub(pattern, repl, string, count=0, flags=0)
参数说明:
在这里插入图片描述

5. split

split 根据匹配进行切割字符串,并返回一个列表
语法:split(pattern, string, maxsplit=0, flags=0)
参数说明:
在这里插入图片描述

八、贪婪模式与非贪婪模式

Python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符,非贪婪则相反,总是尝试匹配尽可能少的字符。
在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪.

内容小结

元字符 说明 正确 错误
\d 匹配任意单个数字 2 i、$
\D 匹配非数字 A/a 3
\w 匹配任意单个字母/数字/下划线 u &
\W 匹配\w之外的任意单个字符 & u
\s 匹配单个空格 x
\S 匹配非空白,除空格,tab键之类 x
\n 匹配换行符
. 匹配任意单个字符【换行符除外】
\num 匹配前面引用的分组

多次的重复匹配

正则表达式 说明 正确 错误
A{3} 精准N次匹配 AAA AA
A{3,} 最少出现n次 AAA A
\d{3,5} 约定出现最少次数和最大次数
\d* 可以出现0次至无限次 相当于{0,}
\d+ 最少出现一次 相当于{1,}
\d? 最多出现一次 相当于{0,1} 1 12

定位匹配

正则表达式 说明 正确 错误
^A.* 头匹配 ABC CBA
.*A$ 尾部匹配 CBA ABC
^A.*A$ 全字匹配 ACCA BAAA

字符的范围匹配

正则表达式 说明 正确 错误
A 精准匹配 A a
x y 匹配左右两边的字符 x/y
[xyz] 字符集合允许出现集合内任意单个字符 z、x、y c、b
[a-z][A-Z][0-9] 字符范围
[xyz][0-9] 取反 集合内字符不允许出现的 0 A y8

贪婪模式
在满足条件的情况下尽可能的去匹配多的字符串
实例:111222333 \d{6,8}
数据 :小王出生于1997年 .*\d{4}年 贪婪模式

非贪婪模式
在满足条件的情况下尽可能的去匹配少的字符串
实例:111222333 \d{6,8}?
数据 :小王出生于1997年 .*?\d{4}年 贪婪模式

相关文章
|
2天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1517 4
|
29天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
5天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
492 19
|
2天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
179 1
|
8天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
21天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
9天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
448 5
|
7天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
314 2
|
23天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
25天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2608 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析