前言
re库就是我们常说的正则表达式库,它是用一种形式化语法来描述的文本匹配模式。通过该库,我们可以匹配特定字符串中的一些内容,比如爬取网页内容时,我们可以通过re库获取网页内容中的所有标签内容。
本篇将详细讲解re库的使用规则。
查找文本
比如,在一串字符串文本中,我们需要查找一个子字符串是否在该字符串中,并返回其具体的位置索引,该怎么做呢?
import re content = "My name is Li Yuanjing" pattern = "name" match = re.search(pattern, content) print(match.start()) print(match.end())
运行之后,效果如下:
这里,我们通过re.search()函数查找字符串pattern是否在content字符串中。可以看到,其返回了pattern字符串在content字符串的开始索引与结束索引位置。
多重匹配
不过,在平常的项目中,往往并不是仅仅只有一个匹配结果,可能有时候会有多个匹配结果出现。这个时候,我们需要使用re.findall()函数实现多重匹配。
import re content = "asasssasasasaaasasasasssasasa" pattern = "sa" for match in re.findall(pattern, content): print(match)
运行之后,效果如下:
这里,我们匹配了11个。不过这里是返回的match字符串,并不是和上面一个返回的一个Match示例,我现在想要获取所有多重匹配结果的索引位置怎么办?
import re content = "asasssasasasaaasasasasssasasa" pattern = "sa" for match in re.finditer(pattern, content): print(match.start(),match.end())
运行之后,效果如下:
使用re.finditer()函数返回的是一个迭代器,它会生成Match实例。
元字符(锚定码)
像上面的的一个字符串,里面有多个子字符串,通过匹配肯定会返回多个结果。现在,我们有一个需求,不管字符串里面有多个匹配结果,我们只需要第一个怎么操作呢?
当然,这里我们还是可以如上面代码一样先找到所有,再取第一个就行。但其实我们可以通过元字符一步就达成。首先,我们先来看看元字符有哪些?
| 元字符 | 含义 |
| . | 表示匹配任意一个字符(除了换行符) |
| ^ | 表示从字符串开头开始匹配 |
| $ | 表示从字符串末尾开始匹配 |
| * | 表示匹配某个字符匹配0到无穷次 |
| + | 表示匹配某个字符匹配1到无穷次 |
| ? | 表示匹配某个字符匹配0或1次 |
| {} | 表示匹配某个字符匹配任意次 |
| [] | 为或的意思,匹配其中任一项,其中里边除了 - \和^没有特殊符号 |
| \A | 字符串开头 |
| \Z | 字符串末尾 |
| \b | 单词开头或末尾的空串 |
| \B | 不在单词开头或末尾的空串 |
下面,我们来实现从末尾匹配,只匹配一个结果。具体代码如下所示:
import re content = "name123name321name213name321name123" print(len(content)) for match in re.finditer("123$", content): print(match.start(), match.end()) print(re.findall("name*", content)) print(re.findall("name+", content)) print(re.findall("name?", content)) print(re.findall("name{5}", content)) print(re.findall("name{1,5}", content)) print(re.findall("name[12]", content))
运行之后,效果如下:
转义码
除了元字符之外,我们还可以通过转义码匹配特定的字符,比如上面的元字符只能匹配后面有多少个字符,并不能区分数字或者字母等其他的内容。下面,我们来看看正则表达式中常用的转义码。
| 转义码 | 含义 |
| \d | 匹配数字 |
| \D | 匹配非数字 |
| \s | 匹配空白符(制表符,空格,换行等) |
| \S | 匹配非空白符 |
| \w | 字母数字 |
| \W | 非字母数字 |
这里,我们来分别匹配看看效果,具体代码如下所示:
import re content = "name 123" print(re.findall("\d", content)) print(re.findall("\D", content)) print(re.findall("\s", content)) print(re.findall("\S", content)) print(re.findall("\w", content)) print(re.findall("\W", content)) #结合前面元字符,可以实现贪婪匹配 print(re.findall("\w*", content))
运行之后,效果如下:
fullmatch()
在有些时候,我们并不是需要在字符串中找到某些规则的子集。而是判断某些字符串是否是邮箱,或者是电话等。这个时候,就需要整个字符串与模式匹配,re库提供了fullmatch()函数用于整个模式的匹配。
import re content = "liyuanjinglyj@163.com" pattern = "^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$" s = re.fullmatch(pattern, content) if s is None: print("字符串不是邮箱") else: print("字符串是邮箱")
编译表达式
虽然说,通过上面的方式进行re库的使用可以完成字符串的匹配,但是对于程序频繁使用的表达式而言,编译它们会更加的高效。compile()函数就可以把一个表达式字符串转换为RegexObject使用。具体代码如下:
import re content = "liyuanjinglyj@163.com" pattern = "^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$" regex = re.compile(pattern) s = regex.search(content) print(s[0])
组解析匹配
在上面的邮箱匹配中,我们可以用编译表达式判断邮箱字符串是否完全匹配。不过,现在假如我们有一个更大的需求,就是获取邮箱的域名,用户名。很显然上面的知识只能匹配整个字符串,或者分别创建两个pattern进行匹配。
这样往往非常耗时,还增加了代码的冗余程度。所以,我们需要掌握re库的组解析匹配。具体代码如下:
import re content = "liyuanjinglyj@163.com" pattern = "^([A-Za-z0-9\u4e00-\u9fa5]+)@([a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+)$" regex = re.compile(pattern) match = regex.search(content) print(match.groups()) print("邮箱的用户名:", match.group(1)) print("邮箱的域名为:", match.group(2))
运行之后,效果如下:
可以看到,组匹配其实就是将匹配的规则字符串用“()”设定为一组。不过,需要注意的是,这里match.gourps(0)并不是上面显示的第一个字符串“liyuanjinglyj”,而是完整的字符串结果"liyuanjinglyj@163.com"。简而言之,match.gourps(0)是所有匹配的字符串,从match.gourps(1)开始才是用()分组的解析内容。





