在Python里面,当我们要从一段正则表达式中提取出一部分内容的时候,我们可以把这部分内容用小括号包起来。例如:从字符串 我的密码123456abc
中提取 123456abc
,我们可以这样写正则表达式:
import re s = '我的密码123456abc' password = re.findall('密码(.*?)$', s) print(password)
运行效果如下图所示:
在这个例子里面,小括号的意思是“分组”。
但是,在正则表达式里面,小括号还有另外一个意思,那就是把几个符号放在一起,作为一个整体。
例如,还有另一个字符串 我的口令123456abc
,这里密码前面是 口令
,为了使用同一个正则表达式来从这两个句子里面提取密码,那么需要表达 密码或口令(.*?)$
这个意思。
但如果我们这样写:
密码|口令(.*?)$
它实际上表达的意思是 密码令(.*?)$
或者 密口令(.*?)$
。
所以我们需要把 (密码)
和 口令
作为整体来看待。此时,正则表达式本身支持使用括号来表示:
(密码|口令)(.*?)$
在正则表达式里面,小括号内部的 |
左右两侧的多个字符串会作为整体,这样就能表示 密码(.*?)$
或 口令(.*?)$
了。
但是,正则表达式里面作为整体的小括号,与Python里面用来分组的小括号发生了冲突,于是我们会发现提取出来的内容并不是我们想要的:
可以看到,这里, (密码|口令)
它同时即有正则表达式里面作为整体的功能,又有Python里面分组的功能。于是结果就多出来了我们不想要的东西。
那么有什么办法让 (密码|口令)
只实现正则表达式里面的作为整体的功能,不实现Python里面的分组功能呢?这个时候就需要使用正则表达式里面的一个组合符号 ?:
了。
请大家对比下面三个结果:
可以看到, >.*?<
与 <(?:.*?)>
的作用是一样的。这就说明,以 ?:
开头的小括号,它失去了分组的功能。
因此,我们把这个特征用到一开始的例子中:
>>> import re >>> s = '我的密码123456abc' >>> re.findall('(?:密码|口令)(.*?)$', s) ['123456abc'] >>> s = '我的口令123456abc' >>> re.findall('(?:密码|口令)(.*?)$', s) ['123456abc']
运行效果如下图所示,完成任务: