Python学习十:正则表达式

简介: 这篇文章是关于Python中正则表达式的使用,包括re模块的函数、特殊字符、匹配模式以及贪婪与非贪婪模式的详细介绍。

前言

对应GitHub代码地址:https://github.com/fengfanli/studyPython

对应的包是: study11_正则表达式

一、正则表达式

1. 正则表达式

正则表达式,英文名为Regular Expression,又称规则表达式。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

在主流操作系统(*nix[Linux, Unix等]、Windows、HP、BeOS等)、主流的开发语言(delphi、Scala、PHP、C#、Java、C++、Objective-c、Swift、VB、Javascript、Ruby以及Python等)、数以亿万计的各种应用软件中,都可以看到正则表达式优美的舞姿。

1. Python正则表达式

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。同时,re 模块是用c语言写的,其匹配速度非常快。
其中compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

二、匹配字符串 re模块

re.match 尝试从字符串的起始位置匹配一个规则,匹配成功就返回match对象,否则返回None。可以使用group()获取匹配成功的字符串。
语法:re.match(pattern, string, flags=0)
参数说明:
在这里插入图片描述

示例1(无标志位):

import re 
str = 'Python is the best language in the world’ 
# match 只能匹配以xxx开头的子符串,第一个参数是正则,第二个参数是需要匹配的字符串 
res = re.match('P',str) 
res.group() # 匹配成功使用group方法取出字符串 
'P'

示例2(有标志位):

import re 
str = 'Python is the best language in the world’ 
res = re.match(‘p’,str,re.I) 
res.group() 
'P'

如果同时使用多个标志位使用|分割,比如re.I | re.M
flags可选标志位
在这里插入图片描述

  1. .(点)的使用:匹配单个字符,除了换行符\ n 和 非字符 除外
  2. [] 中括号的使用:匹配中括号中的任意一个字符
  3. \d 的使用:匹配一个数字
  4. \D 的使用:匹配一个非数字
  5. \s 的使用:匹配一个空白字符 或者tab键
  6. \S 的使用:匹配非空白字符
  7. \w 的使用:匹配单词字符,即a-z、A-Z、0-9、_
  8. \W 的使用:匹配非[a-z、A-Z、0-9]单词字符

三、匹配字符数量

    • 的使用:匹配 前一个字符 出现0次或者无限次,即可有可无
    • 的使用:匹配前一个字符出现 1 次或者无限次,即至少有 1 次
  1. ? 的使用:告诉引擎匹配前导字符 0 次或者一次,事实上表示前导字符是可以选择的
  2. {min} 的使用:告诉引擎匹配前导字符min次
  3. {min,} 的使用:告诉引擎匹配前导字符大于等于min次
  4. {min,max} 的使用:告诉引擎匹配前导字符min次到max次 ,min和max必须都是非负整数

四、匹配原生字符串

python字符串中\作为转义字符开头,比如\n表示换行,\t表示tab键,为了表示\本身,再加一个\,成为\形式 在python中表示路径‘G:\py资料\1-上课资料\4-正则表达式课件\html’

mypath = 'G:\py资料\1-上课资料\4-正则表达式课件\html’ 
print(mypath) # 路劲输出异常 
G:\py资料-上课资料-正则表达式课件\html 

mypath = 'G:\\py资料\\1-上课资料\\4-正则表达式课件\\html’ 
print(mypath) # 将\转义之后正常 
G:\py资料\1-上课资料\4-正则表达式课件\html 
>>>

正则表达式里使用"“作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”",那么使用编程语言表示的正则表达式里将需要4个反斜杠""。
在python中有原生字符串,在字符串前面加上r表示字符串中的\不转义。

五、 匹配开头和结尾

  1. ^ 的使用:匹配字符串的开头
  2. $ 的使用:匹配邮箱的结尾

在这里插入图片描述

示例:匹配163.com的邮箱地址

import re 
# 正确地址 
ret = re.match('[\w]{4,20}@163\.com','python@163.com’) 
ret.group() 
'python@163.com’ 
# 不正确地址 
ret = re.match('[\w]{4,20}@163\.com','python@163.comsdsdds’) 
ret.group() 
'python@163.com’ 
# 通过$来限定结尾  
ret = re.match('[\w]{4,20}@163\.com$','python@163.comsdsdds’) 
ret.group() 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
AttributeError: 'NoneType' object has no attribute 'group’

六、 分组匹配

在这里插入图片描述

七、 匹配开头和结尾

1. compile 方法

compile 将正则表达式模式编译成一个正则表达式对象
reg = re.compile(pattern) result = reg.match(string)
等效于 result = re.match(pattern, string)
使用re.compile()和保存所产生的正则表达式对象重用效率更高

2. search 方法

search 在全文中匹配一次,匹配到就返回
语法:re.search(pattern, string, flags=0)
函数参数说明:
在这里插入图片描述

3. findall 方法

findall 匹配所有返回一个列表,这个方法使用频率较高。
语法:findall(string[, pos[, endpos]])
参数说明:
在这里插入图片描述

4.sub

sub 将匹配到的数据进行替换
语法:sub(pattern, repl, string, count=0, flags=0)
参数说明:
在这里插入图片描述

5. split

split 根据匹配进行切割字符串,并返回一个列表
语法:split(pattern, string, maxsplit=0, flags=0)
参数说明:
在这里插入图片描述

八、贪婪模式与非贪婪模式

Python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符,非贪婪则相反,总是尝试匹配尽可能少的字符。
在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪.

内容小结

元字符 说明 正确 错误
\d 匹配任意单个数字 2 i、$
\D 匹配非数字 A/a 3
\w 匹配任意单个字母/数字/下划线 u &
\W 匹配\w之外的任意单个字符 & u
\s 匹配单个空格 x
\S 匹配非空白,除空格,tab键之类 x
\n 匹配换行符
. 匹配任意单个字符【换行符除外】
\num 匹配前面引用的分组

多次的重复匹配

正则表达式 说明 正确 错误
A{3} 精准N次匹配 AAA AA
A{3,} 最少出现n次 AAA A
\d{3,5} 约定出现最少次数和最大次数
\d* 可以出现0次至无限次 相当于{0,}
\d+ 最少出现一次 相当于{1,}
\d? 最多出现一次 相当于{0,1} 1 12

定位匹配

正则表达式 说明 正确 错误
^A.* 头匹配 ABC CBA
.*A$ 尾部匹配 CBA ABC
^A.*A$ 全字匹配 ACCA BAAA

字符的范围匹配

正则表达式 说明 正确 错误
A 精准匹配 A a
x y 匹配左右两边的字符 x/y
[xyz] 字符集合允许出现集合内任意单个字符 z、x、y c、b
[a-z][A-Z][0-9] 字符范围
[xyz][0-9] 取反 集合内字符不允许出现的 0 A y8

贪婪模式
在满足条件的情况下尽可能的去匹配多的字符串
实例:111222333 \d{6,8}
数据 :小王出生于1997年 .*\d{4}年 贪婪模式

非贪婪模式
在满足条件的情况下尽可能的去匹配少的字符串
实例:111222333 \d{6,8}?
数据 :小王出生于1997年 .*?\d{4}年 贪婪模式

相关文章
|
19天前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
36 3
|
24天前
|
安全 关系型数据库 测试技术
学习Python Web开发的安全测试需要具备哪些知识?
学习Python Web开发的安全测试需要具备哪些知识?
32 4
|
2月前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
308 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
2天前
|
存储 索引 Python
Python学习的自我理解和想法(6)
这是我在B站千锋教育学习Python的第6天笔记,主要学习了字典的使用方法,包括字典的基本概念、访问、修改、添加、删除元素,以及获取字典信息、遍历字典和合并字典等内容。开学后时间有限,内容较为简略,敬请谅解。
|
6天前
|
存储 程序员 Python
Python学习的自我理解和想法(2)
今日学习Python第二天,重点掌握字符串操作。内容涵盖字符串介绍、切片、长度统计、子串计数、大小写转换及查找位置等。通过B站黑马程序员课程跟随老师实践,非原创代码,旨在巩固基础知识与技能。
|
5天前
|
程序员 Python
Python学习的自我理解和想法(3)
这是学习Python第三天的内容总结,主要围绕字符串操作展开,包括字符串的提取、分割、合并、替换、判断、编码及格式化输出等,通过B站黑马程序员课程跟随老师实践,非原创代码。
|
2天前
|
Python
Python学习的自我理解和想法(7)
学的是b站的课程(千锋教育),跟老师写程序,不是自创的代码! 今天是学Python的第七天,学的内容是集合。开学了,时间不多,写得不多,见谅。
|
2天前
|
存储 索引 Python
Python学习的自我理解和想法(4)
今天是学习Python的第四天,主要学习了列表。列表是一种可变序列类型,可以存储任意类型的元素,支持索引和切片操作,并且有丰富的内置方法。主要内容包括列表的入门、关键要点、遍历、合并、判断元素是否存在、切片、添加和删除元素等。通过这些知识点,可以更好地理解和应用列表这一强大的数据结构。
|
2天前
|
索引 Python
Python学习的自我理解和想法(5)
这是我在B站千锋教育学习Python的第五天笔记,主要内容包括列表的操作,如排序(`sort()`、``sorted()``)、翻转(`reverse()`)、获取长度(`len()`)、最大最小值(`max()`、``min()``)、索引(`index()`)、嵌套列表和列表生成(`range`、列表生成式)。通过这些操作,可以更高效地处理数据。希望对大家有所帮助!
|
8天前
|
安全 程序员 Python
Python学习的自我理解和想法(1)
本篇博客记录了作者跟随B站“黑马程序员”课程学习Python的第一天心得,涵盖了`print()`、`input()`、`if...else`语句、三目运算符以及`for`和`while`循环的基础知识。通过实际编写代码,作者逐步理解并掌握了这些基本概念,为后续深入学习打下了良好基础。文中还特别强调了循环语句的重要性及其应用技巧。