【从零学习python 】66.深入了解正则表达式:模式匹配与文本处理的利器

简介: 【从零学习python 】66.深入了解正则表达式:模式匹配与文本处理的利器

正则表达式模式

模式字符串使用特殊的语法来表示一个正则表达式:

  • 字母和数字表示他们自身,一个正则表达式模式中的字母和数字匹配同样的字符串。

re.search(r'H','Hello') # 这里的 H 表示的就是字母 H 自身,代表有特殊含义

多数字母和数字前加一个反斜杠时会拥有不同的含义。

ret = re.search(r'\d','he12ms90') # 这里的 \d 表示的是匹配数字

标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。

ret = re.search(r'.','hello') // 这里的 . 表示的是匹配任意字符
ret = re.search(r'\.','he.llo')  // 这里的 \. 进行了转义,才表示标点符号自身。
• 1
• 2

反斜杠本身需要使用反斜杠转义。由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r’\t’,等价于\t )匹配相应的特殊字符。

下表列出了正则表达式模式语法中的特殊元素,如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。

非打印字符

非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:

字符 描述
\cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

特殊字符

所谓特殊字符,就是一些有特殊含义的字符。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符:

特殊字符 描述
( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。
. 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 . 。
[ 标记一个中括号表达式的开始。要匹配 [,请使用 [。
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。‘\n’ 匹配换行符, \ 匹配 \,而 ( 则匹配 ( 。
{ 标记限定符表达式的开始。要匹配 {,请使用 {。
` `
\d 匹配一个数字字符。等价于 [0-9]。
[0-9] 匹配任何数字。等价于 \d
\D 匹配一个非数字字符。等价于 [^0-9]。
[a-z] 匹配任何小写字母
[A-Z] 匹配任何大写字母
[a-zA-Z0-9] 匹配任何字母及数字。等价于\w
\w 匹配包括下划线的任何单词字符。等价于[A-Za-z0-9_]。
\W 匹配任何非单词字符。等价于 [^A-Za-z0-9_]。
[\u4e00-\u9fa5] 匹配纯中文

定位符

定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,即匹配在某些模式之前或之后的位置。下表列出了定位符:

字符 描述
^ 匹配输入字符串的开始位置。如果设置了 MULTILINE 标志,还会与换行符后的位置匹配。
$ 匹配输入字符串的结束位置。如果设置了 MULTILINE 标志,还会与换行符前的位置匹配。
\A 只匹配输入字符串的开始处。
\Z 只匹配输入字符串的结束处,或者在换行符前的最后一个字符处。
\b 匹配一个单词边界,也就是指单词和空格间的位置。例如,er\b 可以匹配 “never” 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。
\B 匹配非单词边界。例如,er\B 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。

重复

下表列出了正则表达式中的重复相关的元字符及其含义:

字符 描述
* 匹配前一个字符零次或多次。
+ 匹配前一个字符一次或多次。
? 匹配前一个字符零次或一次。
{n} 匹配前一个字符恰好 n 次。
{n,} 匹配前一个字符至少 n 次。
{n,m} 匹配前一个字符至少 n 次,但是不超过 m 次。

特殊序列

特殊序列是具有特殊含义的反斜杠开头的序列。下表列出了正则表达式中可用的特殊序列:

序列 描述
\A 只匹配字符串开头。它和 ^ 的区别是,\A 即使在 MULTILINE 模式下也只能匹配字符串开头的位置,而不是行首的位置。
\b 匹配一个单词边界,也就是指单词和空格间的位置。
\B 匹配非单词边界。
\d 匹配任意数字字符,等价于 [0-9]。
\D 匹配任意非数字字符,等价于 [^0-9]。
\s 匹配任意空白字符,包括空格、制表符、换行符等等。
\S 匹配任意非空白字符。
\w 匹配任意字母或数字字符,等价于 [a-zA-Z0-9]。
\W 匹配任意非字母或数字字符,等价于 [^a-zA-Z0-9]。
\Z 只匹配字符串的结束,即使在 MULTILINE 模式下也只能匹配字符串末尾的位置,而不是行尾的位置。

这些是正则表达式中常用的一些模式和元字符,用于匹配、查找和操作字符串。使用正则表达式可以快速、灵活地处理各种文本数据。

相关文章
|
10天前
|
Python 容器
Python学习的自我理解和想法(9)
这是我在B站跟随千锋教育学习Python的第9天,主要学习了赋值、浅拷贝和深拷贝的概念及其底层逻辑。由于开学时间紧张,内容较为简略,但希望能帮助理解这些重要概念。赋值是创建引用,浅拷贝创建新容器但元素仍引用原对象,深拷贝则创建完全独立的新对象。希望对大家有所帮助,欢迎讨论。
|
1天前
|
Python
Python学习的自我理解和想法(10)
这是我在千锋教育B站课程学习Python的第10天笔记,主要学习了函数的相关知识。内容包括函数的定义、组成、命名、参数分类(必须参数、关键字参数、默认参数、不定长参数)及调用注意事项。由于开学时间有限,记录较为简略,望谅解。通过学习,我理解了函数可以封装常用功能,简化代码并便于维护。若有不当之处,欢迎指正。
|
12天前
|
存储 索引 Python
Python学习的自我理解和想法(6)
这是我在B站千锋教育学习Python的第6天笔记,主要学习了字典的使用方法,包括字典的基本概念、访问、修改、添加、删除元素,以及获取字典信息、遍历字典和合并字典等内容。开学后时间有限,内容较为简略,敬请谅解。
|
16天前
|
存储 程序员 Python
Python学习的自我理解和想法(2)
今日学习Python第二天,重点掌握字符串操作。内容涵盖字符串介绍、切片、长度统计、子串计数、大小写转换及查找位置等。通过B站黑马程序员课程跟随老师实践,非原创代码,旨在巩固基础知识与技能。
|
15天前
|
程序员 Python
Python学习的自我理解和想法(3)
这是学习Python第三天的内容总结,主要围绕字符串操作展开,包括字符串的提取、分割、合并、替换、判断、编码及格式化输出等,通过B站黑马程序员课程跟随老师实践,非原创代码。
|
12天前
|
Python
Python学习的自我理解和想法(7)
学的是b站的课程(千锋教育),跟老师写程序,不是自创的代码! 今天是学Python的第七天,学的内容是集合。开学了,时间不多,写得不多,见谅。
|
11天前
|
存储 安全 索引
Python学习的自我理解和想法(8)
这是我在B站千锋教育学习Python的第8天,主要内容是元组。元组是一种不可变的序列数据类型,用于存储一组有序的元素。本文介绍了元组的基本操作,包括创建、访问、合并、切片、遍历等,并总结了元组的主要特点,如不可变性、有序性和可作为字典的键。由于开学时间紧张,内容较为简略,望见谅。
|
12天前
|
存储 索引 Python
Python学习的自我理解和想法(4)
今天是学习Python的第四天,主要学习了列表。列表是一种可变序列类型,可以存储任意类型的元素,支持索引和切片操作,并且有丰富的内置方法。主要内容包括列表的入门、关键要点、遍历、合并、判断元素是否存在、切片、添加和删除元素等。通过这些知识点,可以更好地理解和应用列表这一强大的数据结构。
|
12天前
|
索引 Python
Python学习的自我理解和想法(5)
这是我在B站千锋教育学习Python的第五天笔记,主要内容包括列表的操作,如排序(`sort()`、``sorted()``)、翻转(`reverse()`)、获取长度(`len()`)、最大最小值(`max()`、``min()``)、索引(`index()`)、嵌套列表和列表生成(`range`、列表生成式)。通过这些操作,可以更高效地处理数据。希望对大家有所帮助!
|
18天前
|
安全 程序员 Python
Python学习的自我理解和想法(1)
本篇博客记录了作者跟随B站“黑马程序员”课程学习Python的第一天心得,涵盖了`print()`、`input()`、`if...else`语句、三目运算符以及`for`和`while`循环的基础知识。通过实际编写代码,作者逐步理解并掌握了这些基本概念,为后续深入学习打下了良好基础。文中还特别强调了循环语句的重要性及其应用技巧。