笨办法学 Python · 续 练习 31:正则表达式

简介: 练习 31:正则表达式 原文:Exercise 31: Regular Expressions 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译正则表达式(RegEx)是一种简洁的方式,用于确定字符序列应如何在字符串中匹配。

练习 31:正则表达式

原文:Exercise 31: Regular Expressions

译者:飞龙

协议:CC BY-NC-SA 4.0

自豪地采用谷歌翻译

正则表达式(RegEx)是一种简洁的方式,用于确定字符序列应如何在字符串中匹配。通常大家都认为它们是“可怕”的,但是,正如你所知道的,任何包含在恐惧中的东西通常都不是这样。正则表达式的事实是,它们是大约八个符号的集合,告诉计算机如何匹配模式串。简单来说,他们很容易理解。人们遇到困难的地方是,尝试使用难以置信的复杂的正则表达式,其中解析器实际上会更好。一旦你明白了这八个符号和正则表达式的限制,你就会看到它们根本不可怕。

我打算让你记忆更多东西,使你的的大脑为讨论做好准备。

^

锚定字符串开头。只有字符串刚好位于开头,它才会匹配。

$

锚定字符串末尾。只有字符串到达了末尾,它才会匹配。

.

任何单个字符。接受任何单个字符的输入。

?

正则表达式的之前的部分是可选的,所以A?的意思是可选的字符A

*

之前的部分是零个或多个(任意个)。选取正则表达式的之前的部分,重复接受或者跳过它。A*会接受"AAAAAAA"或者"BQEFT",因为它里面有零个A

+

之前的部分是一个或多个(至少一个)。和*类似,但是只接受一个或多个这种字符。A+会匹配"AAAAAAA",但不是"BQEFT"

[X-Y]

XY字符范围,接受任何范围中列出的字符串。[A-Z]表示所有大写英文字母。许多常见字符范围拥有\快捷方式,你可以使用它来代替。

()

捕获这个正则表达式的部分,便于稍后使用。许多正则表达式库将其用于替换、提取或修改文本。捕获会选取正则表达式的()中的部分,并保存它便于以后使用。之后许多库可以让你引用这些捕获。如果你使用([A-Z]+),它会捕获一个或多个大写英文单词。

Python 的re列出了一些更多的符号,但大多都是这八个的一些修饰符,或者不在正则表达式库中经常发现的额外功能。你将快速记住这八个来起步,重点是粗体的部分(锚定末尾,之前部分可选),以便你可以快速回忆它们并解释他们的作用。

记住这些符号后,请查看以下正则表达式并将其翻译成中文,并使用 Python re库来尝试列出的字符串,或你可以想到的任何其他字符串。

".*BC?$"

helloBC, helloB, helloA, helloBCX

"[A-Za-z][0-9]+"

A1232344, abc1234, 12345, b493034

"^[0-9]?a*b?.$"

0aaaax, aaab9, 9x, 88aabb, 9zzzz

"A+B+C+[xyz]*"

AAAABBCCCCCCxyxyz, ABBBBCCCxxxx, ABABABxxxx

一旦你翻译了它们,使用Python re模块,尝试在 Shell 中尝试它们,如下:

>>> import re
>>> m = re.match(r".*BC?$", "helloB").span()
>>> re.match(r".*BC?$", "helloB").span()
(0, 6)
>>> re.match(r"[A-Za-z][0-9]+", "A1232344").span()
(0, 8)
>>> re.match(r"[A-Za-z][0-9]+", "abc1234").span()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'span'
>>> re.match(r"[A-Za-z][0-9]+", "1234").span()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'span'
>>> re.match(r"[A-Za-z][0-9]+", "b493034").span()
(0, 7)
>>>

对于任何不匹配,你会得到AttributeError: 'NoneType',因为当你的正则表达式不匹配时,re.match函数返回None

挑战练习

挑战是尝试使用你的 FSM 模块来实现一个简单的正则表达式,至少执行三个操作。这将是一个困难的挑战,但使用 Python re库来帮助你规划和测试此正则表达式的实现。然后,一旦你知道如何实现它,永远不要这样做了。人生苦短,不要做计算机已经擅长的事情。

研究性学习

  • 扩展你的记忆,来包括 Python re库文档中的所有可能的符号。
  • 如果你想要匹配一个*字符,那么你可以用\*来转义它。大多数其他符号也有类似的东西。
  • 确保你知道如何使用re.ASCII,因为某些解析的需求需要它。

深入学习

看看regex,如果你需要 Unicode 支持,那么这个更好。

相关文章
|
8天前
|
Python
Python 内置正则表达式库re的使用
正则表达式是记录文本规则的代码,用于查找和处理符合特定规则的字符串。在Python中,常通过原生字符串`r&#39;string&#39;`表示。使用`re.compile()`创建正则对象,便于多次使用。匹配字符串有`match()`(从开头匹配)、`search()`(搜索首个匹配)和`findall()`(找所有匹配)。替换字符串用`sub()`,分割字符串则用`split()`。
26 3
|
8天前
|
Python Windows
【Python进阶必备】一文掌握re库:实战正则表达式
【Python进阶必备】一文掌握re库:实战正则表达式
14 0
|
2天前
|
数据安全/隐私保护 Python
Python进阶---正则表达式
Python进阶---正则表达式
9 2
|
6天前
|
数据采集 Python
python中的正则表达式,Python实习面试经验汇总
python中的正则表达式,Python实习面试经验汇总
|
8天前
|
存储 Python
Python自定义函数练习(持续更新中~)
Python自定义函数练习(持续更新中~)
6 0
|
8天前
|
Python
python正则表达式小结
1. **其他函数:**  `re`模块还提供了其他一些函数,例如 `re.search()`查找字符串中第一个匹配的部分,`re.findall()`查找所有匹配的部分,`re.sub()`替换匹配的部分。
23 0
|
8天前
|
网络安全 Python
网安之python基础学习练习(2-3)
本篇博文是关于网络安全课程中Python编程的学习实践总结。分享关于两个练习题目及其解决方案。第一个题目要求用户输入姓名并选择一项武技,使用for循环和if判断实现。第二个题目是删除列表中特定值(如&#39;cat&#39;)的所有元素,作者展示了两种方法,包括列表推导式和常规循环删除。接下来,文章还介绍了如何编写一个函数,随机生成一副扑克牌(除大小王),并返回一张随机抽取的牌。
|
8天前
|
存储 网络安全 索引
网安之python基础学习练习(1)
本篇博文是关于网络安全课程中Python编程学习的总结,主要内容包括:1) 常见数据类型的回顾和应用,如数字(整数、浮点数、复数)、字符串、列表、元组、集合、字典和布尔类型;2) 数据类型的实例操作,展示如何创建和使用这些类型;3) 数值类型之间的加、减、乘、除和模运算;4) 列表和元组的索引访问;5) 字典的修改,如查看键和值,以及更新值。文章强调了基础知识的重要性,并以“自满必定失败,骄傲必定后悔”作为每日一言。
|
8天前
|
Python
使用Python解析网页和正则表达式
使用Python解析网页涉及`requests`和`re`模块。首先导入这两个模块,然后用`requests.get()`发送HTTP请求获取URL内容。通过`.text`属性得到HTML文本。接着,利用正则表达式和`re.search()`匹配特定模式(如网页标题),并用`.group(1)`获取匹配数据。最后,对提取的信息进行处理,如打印标题。实际操作时,需根据需求调整正则表达式。
20 2
|
8天前
|
缓存 运维 前端开发
第十六章 Python正则表达式
第十六章 Python正则表达式