re库:Python中正则表达式的处理与应用(一)

简介: re库:Python中正则表达式的处理与应用(一)

前言


re库就是我们常说的正则表达式库,它是用一种形式化语法来描述的文本匹配模式。通过该库,我们可以匹配特定字符串中的一些内容,比如爬取网页内容时,我们可以通过re库获取网页内容中的所有标签内容。


本篇将详细讲解re库的使用规则。


查找文本


比如,在一串字符串文本中,我们需要查找一个子字符串是否在该字符串中,并返回其具体的位置索引,该怎么做呢?

import re
content = "My name is Li Yuanjing"
pattern = "name"
match = re.search(pattern, content)
print(match.start())
print(match.end())


运行之后,效果如下:


这里,我们通过re.search()函数查找字符串pattern是否在content字符串中。可以看到,其返回了pattern字符串在content字符串的开始索引与结束索引位置。


多重匹配


不过,在平常的项目中,往往并不是仅仅只有一个匹配结果,可能有时候会有多个匹配结果出现。这个时候,我们需要使用re.findall()函数实现多重匹配。

import re
content = "asasssasasasaaasasasasssasasa"
pattern = "sa"
for match in re.findall(pattern, content):
    print(match)


运行之后,效果如下:


这里,我们匹配了11个。不过这里是返回的match字符串,并不是和上面一个返回的一个Match示例,我现在想要获取所有多重匹配结果的索引位置怎么办?

import re
content = "asasssasasasaaasasasasssasasa"
pattern = "sa"
for match in re.finditer(pattern, content):
    print(match.start(),match.end())


运行之后,效果如下:


使用re.finditer()函数返回的是一个迭代器,它会生成Match实例。


元字符(锚定码)


像上面的的一个字符串,里面有多个子字符串,通过匹配肯定会返回多个结果。现在,我们有一个需求,不管字符串里面有多个匹配结果,我们只需要第一个怎么操作呢?


当然,这里我们还是可以如上面代码一样先找到所有,再取第一个就行。但其实我们可以通过元字符一步就达成。首先,我们先来看看元字符有哪些?

元字符 含义
. 表示匹配任意一个字符(除了换行符)
^ 表示从字符串开头开始匹配
$ 表示从字符串末尾开始匹配
* 表示匹配某个字符匹配0到无穷次
+ 表示匹配某个字符匹配1到无穷次
表示匹配某个字符匹配0或1次
{} 表示匹配某个字符匹配任意次
[] 为或的意思,匹配其中任一项,其中里边除了 - \和^没有特殊符号
\A 字符串开头
\Z 字符串末尾
\b 单词开头或末尾的空串
\B 不在单词开头或末尾的空串

下面,我们来实现从末尾匹配,只匹配一个结果。具体代码如下所示:

import re
content = "name123name321name213name321name123"
print(len(content))
for match in re.finditer("123$", content):
    print(match.start(), match.end())
print(re.findall("name*", content))
print(re.findall("name+", content))
print(re.findall("name?", content))
print(re.findall("name{5}", content))
print(re.findall("name{1,5}", content))
print(re.findall("name[12]", content))


运行之后,效果如下:


转义码


除了元字符之外,我们还可以通过转义码匹配特定的字符,比如上面的元字符只能匹配后面有多少个字符,并不能区分数字或者字母等其他的内容。下面,我们来看看正则表达式中常用的转义码。

转义码 含义
\d 匹配数字
\D 匹配非数字
\s 匹配空白符(制表符,空格,换行等)
\S 匹配非空白符
\w 字母数字
\W 非字母数字

这里,我们来分别匹配看看效果,具体代码如下所示:

import re
content = "name 123"
print(re.findall("\d", content))
print(re.findall("\D", content))
print(re.findall("\s", content))
print(re.findall("\S", content))
print(re.findall("\w", content))
print(re.findall("\W", content))
#结合前面元字符,可以实现贪婪匹配
print(re.findall("\w*", content))


运行之后,效果如下:


fullmatch()


在有些时候,我们并不是需要在字符串中找到某些规则的子集。而是判断某些字符串是否是邮箱,或者是电话等。这个时候,就需要整个字符串与模式匹配,re库提供了fullmatch()函数用于整个模式的匹配。

import re
content = "liyuanjinglyj@163.com"
pattern = "^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$"
s = re.fullmatch(pattern, content)
if s is None:
    print("字符串不是邮箱")
else:
    print("字符串是邮箱")


编译表达式


虽然说,通过上面的方式进行re库的使用可以完成字符串的匹配,但是对于程序频繁使用的表达式而言,编译它们会更加的高效。compile()函数就可以把一个表达式字符串转换为RegexObject使用。具体代码如下:

import re
content = "liyuanjinglyj@163.com"
pattern = "^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$"
regex = re.compile(pattern)
s = regex.search(content)
print(s[0])


组解析匹配


在上面的邮箱匹配中,我们可以用编译表达式判断邮箱字符串是否完全匹配。不过,现在假如我们有一个更大的需求,就是获取邮箱的域名,用户名。很显然上面的知识只能匹配整个字符串,或者分别创建两个pattern进行匹配。


这样往往非常耗时,还增加了代码的冗余程度。所以,我们需要掌握re库的组解析匹配。具体代码如下:

import re
content = "liyuanjinglyj@163.com"
pattern = "^([A-Za-z0-9\u4e00-\u9fa5]+)@([a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+)$"
regex = re.compile(pattern)
match = regex.search(content)
print(match.groups())
print("邮箱的用户名:", match.group(1))
print("邮箱的域名为:", match.group(2))


运行之后,效果如下:


可以看到,组匹配其实就是将匹配的规则字符串用“()”设定为一组。不过,需要注意的是,这里match.gourps(0)并不是上面显示的第一个字符串“liyuanjinglyj”,而是完整的字符串结果"liyuanjinglyj@163.com"。简而言之,match.gourps(0)是所有匹配的字符串,从match.gourps(1)开始才是用()分组的解析内容。

相关文章
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】Python之人工智能应用篇——音频生成技术
音频生成是指根据所输入的数据合成对应的声音波形的过程,主要包括根据文本合成语音(text-to-speech)、进行不同语言之间的语音转换、根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。它涵盖了声音结构中的音素、音节、音位、语素等基本单位的预测和组合,通过频谱逼近或波形逼近的合成策略来实现音频的生成。 音频生成技术的发展主要依赖于深度学习模型,如循环神经网络(RNN)、长短时记忆网络(LSTM)、Transformer等。这些模型通过学习大量的音频数据,能够自动生成与人类发音相似甚至超越人类水平的音频内容。近年来,随着大规模预训练模型的流行,如GPT系列模型、BERT、T5等,
12 7
【深度学习】Python之人工智能应用篇——音频生成技术
|
2天前
|
机器学习/深度学习 人工智能 算法
【深度学习】python之人工智能应用篇——图像生成技术(二)
图像生成是计算机视觉和计算机图形学领域的一个重要研究方向,它指的是通过计算机算法和技术生成或合成图像的过程。随着深度学习、生成模型等技术的发展,图像生成领域取得了显著的进步,并在多个应用场景中发挥着重要作用。
15 9
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
17 8
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇--代码生成技术
代码生成技术是人工智能与软件工程交叉领域的一项重要技术,它利用机器学习、自然语言处理和其他AI算法自动编写或辅助编写计算机程序代码。这一技术旨在提高编程效率、降低错误率,并帮助非专业开发者快速实现功能。以下是代码生成技术的概述及其典型应用场景。
16 6
|
3天前
|
Unix Shell Python
在Shell中转换Python正则表达式
结合以上提到的注意事项与差异点,就能在Shell环境中巧妙地转换并使用Python正则表达式了。务实和节省时间的做法是,将一些常见Python正则模式记在手边,随时查阅并对照POSIX标准进行调整。同时,借助在线正则表达式测试器和文档也能有效地提升在Shell环境中处理正则表达式的能力。
12 5
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】python之人工智能应用篇--数字人生成技术
数字人生成技术是基于人工智能技术和计算机图形学技术创建的虚拟人物形象的技术。该技术能够模拟人类的外貌、声音、动作和交流能力,为多个领域带来创新的应用可能性。数字人的本质是将所有信息(数字和文字)通过数字处理(如计算机视觉、语音识别等)再进行表达的过程,形成具有人类形态和行为的数字产物。 数字人的生成涉及到多种技术,如3D重建技术,使用三维扫描仪扫描人的外观、五官等,并通过3D模型重建三维人;虚拟直播技术,使用计算机技术生成人物或实体,并且可以实时直播、录制;数字人体数据集技术,利用数据构建数字人模型以及训练虚拟现实引擎等
10 4
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】python之人工智能应用篇——视频生成技术
视频生成技术是一种基于深度学习和机器学习的先进技术,它使得计算机能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的、高保真的视频内容。这种技术主要依赖于深度学习模型,如生成对抗网络(GAN)、自回归模型(Auto-regressive Model)、扩散模型(Diffusion Model)等。其中,GAN由两个神经网络组成:一个生成器用于生成逼真的图像或视频,另一个判别器用于判断生成的图像或视频是否真实。通过不断的对抗学习,生成器和判别器共同优化,以产生更高质量的视频。
9 2
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇——3D生成技术
在Python中,人工智能(AI)与3D生成技术的结合可以体现在多个方面,比如使用AI算法来优化3D模型的生成、通过机器学习来预测3D模型的属性,或者利用深度学习来生成全新的3D内容。然而,直接通过AI生成完整的3D模型(如从文本描述中生成)仍然是一个活跃的研究领域。 3D生成技术是一种通过计算机程序从二维图像或文本描述自动创建三维模型的过程。这一技术在近年来得到了飞速的发展,不仅为游戏、动画和影视行业带来了革命性的变革,还在虚拟现实、增强现实以及工业设计等多个领域展现出了巨大的应用潜力
7 2
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇--游戏生成技术
游戏生成技术,特别是生成式人工智能(Generative Artificial Intelligence, 简称Generative AI),正逐步革新游戏开发的多个层面,从内容创作到体验设计。这些技术主要利用机器学习、深度学习以及程序化内容生成(Procedural Content Generation, PCG)来自动创造游戏内的各种元素,显著提高了开发效率、丰富了游戏内容并增强了玩家体验。以下是生成式AI在游戏开发中的几个关键应用场景概述
6 2
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】python之人工智能应用篇--跨模态生成技术
跨模态生成技术是一种将不同模态的数据(如文本、图像、音频、视频等)进行融合和转换的技术。其目标是通过将一个模态的数据作为输入,生成与之对应的另一个模态的输出。这种技术对于突破单一模态的局限性,提高信息处理的准确性和丰富性具有重要意义。跨模态生成技术主要依赖于深度学习和生成模型,通过学习和模拟不同模态之间的映射关系来实现模态间的转换。
6 1