开发者社区问答正文

如何在python正则表达式中获取所有可能的子组？

我想在正则表达式findall期间获取所有可能的子组：（group（subgroup））+。当前，它仅返回最后的匹配项，例如：

>>> re.findall(r'SOME_STRING_(([A-D])[0-9]+)+_[A-Z]+', 'SOME_STRING_A2B2C3_OTK')
[('C3', 'C')]

现在，我必须分两个步骤进行操作：

>>> match = re.match(r'SOME_STRING_(([A-D][0-9]+)+)_[A-Z]+', 'SOME_STRING_A2B2C3_OTK')
>>> re.findall(r'([A-D])[0-9]+', match.group(1))
['A', 'B', 'C']

有什么方法可以让我一步得到相同的结果吗？

问题来源：stackoverflow

展开

收起

is大龙 2020-03-25 00:21:58 751 版权

1 条回答

写回答

取消提交回答

is大龙
由于`（（[[AD]）[0-9] +）+是重复捕获组，因此仅返回最后一个匹配结果也就不足为奇了。

您可以使用PyPi regex库（可以通过在控制台/终端中键入pip install regex并按ENTER来安装），然后使用：
```
import regex

results = regex.finditer(r'SOME_STRING_(([A-D])[0-9]+)+_[A-Z]+', 'SOME_STRING_A2B2C3_OTK')
print( [zip(x.captures(1),x.captures(2))  for x in results] )
# => [[('A2', 'A'), ('B2', 'B'), ('C3', 'C')]]
```
match.captures属性会跟踪所有捕获。

如果只能使用re，则需要首先提取所有匹配项，然后对它们运行第二个正则表达式以提取所需的部分：
```
import re
tmp = re.findall(r'SOME_STRING_((?:[A-D][0-9]+)+)_[A-Z]+', 'SOME_STRING_A2B2C3_OTK')
results = []
for m in tmp:
    results.append(re.findall(r'(([A-D])[0-9]+)', m))
print( results )
# => [[('A2', 'A'), ('B2', 'B'), ('C3', 'C')]]
```
参见Python演示

回答来源：stackoverflow
2020-03-25 00:22:07

赞同展开评论

问答分类：

Python

问答标签：

Python正则表达式正则表达式python

问答地址：

开发者社区 > 开发与运维 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

如何在python正则表达式中获取所有可能的子组？

相关文章