python小知识-正则表达

简介: 正则表达式是一种匹配字符串的规则,我们可以通过正则表达式去搜索指定规则的字符串

正则表达式是一种匹配字符串的规则,我们可以通过正则表达式去搜索指定规则的字符串。

如果你有需要匹配字符串,正则是一种选择,特别是匹配规则比较复杂的情况下。正则表达式最常用的地方是爬虫,在爬取网页时,指定你需要爬取的内容。

python中的模块re提供了解析正则匹配的规则。

因为正则规则比较不容易理解,理解了规则也会很快忘记,所以建议是了解常用的使用,有具体的匹配需求再去了解是否有规则可以满足你的要求。

1. 正则的四种规则

所以我们先通过一个简单的例子来了解下re正则匹配

import re
pattern = "\w+"
ret = re.match(pattern, "a12323abc")
print(ret)
# <_sre.SRE_Match object; span=(0, 9), match='a12323abc'>

正则规则可以分四种:

    1. 单个字符, 如上面例子中\w表示普通字符(数字、字母或下划线);其他如下:

    yyq-2023-02-17-22-51-31.png

    1. 数量, 如上面例子中+表示重复一次或者多次, ?表示重复0次或者一次

    yyq-2023-02-17-22-52-51.png

    1. 字符组,就是一组字符,用[]包含起来,如果在一个字符组里枚举所有字符,字符组里的任意一个字符和"待匹配字符"相同都视为可以匹配

    yyq-2023-02-17-23-00-12.png

    1. 位置: ^表示匹配开头,$表示匹配结尾

上面例子中"\w+"表示只要是一个或者多个普通字符都算匹配,如何匹配re.match返回非None,否则返回None

我们在看一个匹配邮箱的里子


# @前面是一个或者多个字符,@后面是一个或者多个字符, 接着最后.com
pattern = "\w+@\w+\.com"
ret = re.match(pattern, "yuyq@163.com")
print(ret)
# <_sre.SRE_Match object; span=(0, 12), match='yuyq@163.com'>

pattern = "\w+@\w+\.com"
ret = re.match(pattern, "yuyqx163.com")
print(ret)
# None

pattern = "\w+@(\w+\.)?\w+\.com"
ret = re.match(pattern, "hello123@1xheuet..edu.com")
print(ret)
# None

从上面例子需要知道:

  • 由于.是正则里的特殊字符,需要转义\.
  • (\w+\.)? 中?表示0或者多个,也可以理解有也可以没有也可以,()表示包括的字符是一起的,也就是说 abc.ax. 类似这种是匹配的。上面最后一个例子中多个一个.不符合规则

2. match和search的区别

re除了提供match,还提供search,findall,sub,split等函数;其中match和search,findall提供搜索匹配,sub提供替换,split提供分割。

那match和search有什么区别?

pattern = "(acb)+"
ret = re.match(pattern, "dacbbacb1b")
print(ret)
# None

ret = re.search(pattern, "dacbbacb1b")
print(ret)
# <_sre.SRE_Match object; span=(1, 4), match='acb'>

ret = re.findall(pattern, "dacbbacb1b")
print(ret)
# ['acb', 'acb']

上面的例子,待匹配的字符串中明明有acb为什么match没有匹配成功,原因是:

  • re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None
  • re.search匹配整个字符串,直到找到一个匹配
  • 而re.findall 是匹配所有

我们来看看sub和split的例子

import re
# ":| "表示用:或者空格匹配,|表示只要匹配其中一个规则就可以
ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)
# ['info', 'xiaoZhang', '33', 'shandong']

import re
# 如果"python = 997"中的1个或者多个数字(/d)就是997,使用前面的xx替换
ret = re.sub(r"\d+", "xx", "python = 997")
print(ret)
# python = xx

3. 更多的例子

我们来看几个个复杂的例子

# 匹配1-100
pattern = "[1-9]?\d$|100"
ret = re.match(pattern, "102")
print(ret)
# None

规则解说:

  • [1-9]?表示0或者1个0到9的其中一个数字,
  • 然后\d$是以一个数字结尾;$表示结尾
  • |100也是匹配的
pattern = "[a-zA-Z0-9_]{8,20}"
ret = re.match(pattern, "000000000.")
print(ret)
# None

规则解说:

  • [a-zA-Z0-9_] 必须是大写字母,小写字母,数字和下划线例的字符
  • {8,20}:数量是8到20个

4. 正则的贪婪与⾮贪婪

正则还有一个匹配原则是最多匹配(贪婪)和最少匹配(⾮贪婪)

  • 正则表达式默认为贪婪匹配,也就是尽可能多的向后匹配字符,比如 {n,m} 表示匹配前面的内容出现 n 到 m 次(n 小于 m),在贪婪模式下,首先以匹配 m 次为目标
  • 而在非贪婪模式是尽可能少的向后匹配内容,也就是说匹配 n 次即可

贪婪模式转换为非贪婪模式的方法很简单,在元字符后添加?即可实现

pattern = "b+"
ret = re.match(pattern, "bbacb1b")
print(ret.group())
# bb

pattern = "b+?"
ret = re.match(pattern, "bbacb1b")
print(ret.group())
# b

从上面例子可以:

  • 默认是贪婪模式,匹配到最多;规则是一个或者多个b,有多少个b就有输出多少个b
  • 加?是非贪婪模式,规则是一个或者多个b,就匹配一个b
  • 通过group()输出匹配的字符串

5. 后记

正则规则通常很容易忘记,这里提供一个比较清晰的规则备忘,需要使用的可以查看

总之,记得有re正则这个字符匹配工具,遇到合适场景就可以亮出它。希望对你有帮助!

目录
相关文章
|
Java PHP C#
初识Python之正则表达篇(完结)
初识Python之正则表达篇(完结)
142 0
初识Python之正则表达篇(完结)
|
数据采集 数据可视化 Java
python基础—正则表达式即re模块!
正则表达式(regular expression),就是字符匹配模式,而这个匹配规则在我们写爬虫进行数据提取,或者进行数据可视化进行数据清洗时经常用到,多样化的匹配规则在复杂的字符的情况提取数据时助我们一臂之力;在Perl、java、C/C++等编程语言都支持;python是以re模块的形式支持的;
|
1月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
1月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
27天前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
107 80
|
2月前
|
存储 索引 Python
Python编程数据结构的深入理解
深入理解 Python 中的数据结构是提高编程能力的重要途径。通过合理选择和使用数据结构,可以提高程序的效率和质量
159 59
|
16天前
|
Python
[oeasy]python055_python编程_容易出现的问题_函数名的重新赋值_print_int
本文介绍了Python编程中容易出现的问题,特别是函数名、类名和模块名的重新赋值。通过具体示例展示了将内建函数(如`print`、`int`、`max`)或模块名(如`os`)重新赋值为其他类型后,会导致原有功能失效。例如,将`print`赋值为整数后,无法再用其输出内容;将`int`赋值为整数后,无法再进行类型转换。重新赋值后,这些名称失去了原有的功能,可能导致程序错误。总结指出,已有的函数名、类名和模块名不适合覆盖赋新值,否则会失去原有功能。如果需要使用类似的变量名,建议采用其他命名方式以避免冲突。
34 14
|
26天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
62 2