学习正则表达式在python中的应用

简介:

目的:对文本的处理,正则表达式的功能很强大,可以很巧妙的过滤、匹配、获取想要的字符串,是必须学习的技能,这里只记录常用的写法,详细文档可以参看官方帮助文档。


环境:ubuntu 16.04    python 3.5


在python中使用正则表达式首先要导入re模块

1
import  re

在re模块中有几个常用的函数:


re.compile('value')

它会返回一个正则表达式regex对象,作用是对预编译提速,且第二个参数支持一些方法,把它返回给一个变量方便重复使用,函数有两个参数:匹配表达式和第二个可选参数:

匹配表达式即,正则表达式的写法,因为表达式中常用\符号,所以一般第一个参数下载r''内,r表示引号内为自然字符,python不对内部做转义,这样正则表达式用转义时不用多加一个\,如:r'\d',\d在正则中是匹配一个数字,如果没有r则要写成'\\d',这样很麻烦且不易阅读。

最简单的匹配:r'haha'匹配字符'haha',但不匹配'hehe',可以使用通配符,下面介绍:

常用通配符:

\d表示一个数字

\w表示字母、数字、下划线中任意一个,且在python3中支持匹配一个汉字。

\s表示空格、制表符和换行中任意一个。

\D, \W, \S是他们的非模式。

^匹配字符串起始位置,当^在方括号内是表示非模式,[^a-z]小写26个字母以外。

$匹配字符串结尾位置。

\b表示一个字符旁空格的位置,'it is a good job', \bgoog\b匹配good,而不会匹配goods等其他。

| 竖杠表示或,如\d|\d{2},匹配一个数字或两个数字。

自定义通配符:

[a-z]表示小写a到z的26个字母中任意一个

[]中括号模式可以包含很多,比如:[a-zA-Z0-9_]这个就是\w(只在python2中相等),还可以想这样[aeiou]只包含想要匹配的,或者特殊符号[._-],需要转义的要加上\。


以上都是只匹配符合的一个,下面学习数量:

匹配最少:{5} 表示5次,{1,5}表示1次到5次都可以,{1,}省略后面的表示至少1次。

贪婪匹配:+等同于{1,},*表示可无或更多,?表示一次或更多,.点表示就是\S,这里都会匹配多的结果,因为是贪婪模式。

限制贪婪:在贪婪模式后面加上?表示限制贪婪,匹配最少,+会尽量匹配多的,+?匹配一个。


1
2
numRegex  =  re. compile (r '\d{11}' )
# 生成匹配11位数字的正则对象,\d是数字,{11}代表11次

re.compile()的第二个参数有:re.VERBOSE, re.IGNORECASE和re.DOTALL,后面要大写。

re.VERBOSE表示匹配中可以多行且有注释,在复杂的正则对象中使用。

1
2
3
4
re. compile (r '''(
     \d        #匹配一个数字
     \w        #匹配一个字符
)''' , re.VERBOSE)

re.IGORECASE表示匹配不区分大小写:

1
re. compile (r '[a-z]' , re.IGORECASE)

这个即可以匹配a,也可以匹配A。

re.DOTALL表示允许.匹配包括\s的内容

1
re. compile (r '.*' , re.DOTALL)

匹配所以内容。


匹配方法:search(), match(), findall(), finditer()

这些是匹配规则查找方法,也可以直接把正则表达式写在他们的第一个参数的位置(测试时可以,正式编写不推荐,理由在上面的compile中)而不用compile(),第二个参数是需要匹配的字符串,如

1
re.search(r '\d+' 'aa123abc' )

返回123


search()方法

search()方法进行全字符搜索,返回的是第一个符合条件的match对象,并且它只返回一个,即使后面有其他符合条件的,也不处理,没有则返回None。

1
2
aa  =  re. compile (r '\d\d\d+' )
bb  =  aa.search( 'aa12345abc678' )

bb得到返回的包含12345的match对象,而没有678


match()方法

match()方法从字符串开始处就匹配,且只返回一个符合条件的match对象,相当于正则表达式以r'^开始,匹配也只返回开始部分,没有则返回None。

1
2
aa  =  re. compile (r '\d+' )
bb  =  aa.search( '123ab45' )

bb得到返回的包含123的match对象,没有45,且如果字符串变成'a123ab45',则返回None。


findall()方法

findall()方法进行全字符搜索,返回所有符合条件的值,然后组成列表,即返回一个列表对象,没有则为空列表。

1
2
aa  =  re. compile (r '\d+' )
bb  =  aa.findall( 'a123b45c678' )

bb得到返回的的列表['123', '45', '678']


finditer()方法

finditer()方法进行全字符串搜索,返回所有符合条件的match对象,然后组成迭代器,用for方法可以看出迭代器里面是match对象。


这里match对象有group(), group(index)和groups()方法

可使用它们调用返回的match对象,group()和group(0)都是得到母值,groups()返回所有group(index)组成的元组。


分组和捕获

在正则表达式中使用圆括号()会产生分组,每个组都是元素,返回一个元组对象,可用group()获取对于序号的元素:

1
numRegex  =  re. compile (r '(\d)(\d)(\d)' )

当圆括号内左边使用?:表示不分组、不捕获,如:(?:\d)匹配但不分组也不捕获,不捕获则不生成match对象。


替换方法sub():

上面已经学习了查找,这个是替换方法,有两种常用方式,我称为全部隐藏替换和部分隐藏替换:

全部隐藏替换:

1
2
aa  =  re. compile (r 'engineer (\w)\w+' )
bb  =  aa.sub(r 'XX' 'engineer Ricky gave engineer Tom an apple' )

bb得到字符串'XX gave XX an apple'

部分隐藏替换:

1
2
aa  =  re. compile (r 'engineer (\w)\w+' )
cc  =  aa.sub(r '\1**' 'engineer Ricky gave engineer Tom an apple' )

cc得到字符串'R** gave T** an apple'


常用的正则表达式举例:

r'0\d{2,3}-\d{8}'      匹配固定电话,如:0755-87226688,010-85332765















本文转自RickyHuL51CTO博客,原文链接:http://blog.51cto.com/rickyh/1941536 ,如需转载请自行联系原作者
相关文章
|
6天前
|
数据库 Python
Python 应用
Python 应用。
25 4
|
15天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
58 6
|
16天前
|
数据采集 数据安全/隐私保护 开发者
非阻塞 I/O:异步编程提升 Python 应用速度
非阻塞 I/O:异步编程提升 Python 应用速度
|
24天前
|
机器学习/深度学习 数据可视化 数据处理
从基础到进阶:探索Python在数据科学中的应用
【10月更文挑战第18天】从基础到进阶:探索Python在数据科学中的应用
37 1
|
5天前
|
Python
在Python中,可以使用内置的`re`模块来处理正则表达式
在Python中,可以使用内置的`re`模块来处理正则表达式
16 5
|
6天前
|
机器学习/深度学习 数据采集 数据可视化
Python在数据科学中的应用:从入门到实践
本文旨在为读者提供一个Python在数据科学领域应用的全面概览。我们将从Python的基础语法开始,逐步深入到数据处理、分析和可视化的高级技术。文章不仅涵盖了Python中常用的数据科学库,如NumPy、Pandas和Matplotlib,还探讨了机器学习库Scikit-learn的使用。通过实际案例分析,本文将展示如何利用Python进行数据清洗、特征工程、模型训练和结果评估。此外,我们还将探讨Python在大数据处理中的应用,以及如何通过集成学习和深度学习技术来提升数据分析的准确性和效率。
|
8天前
|
机器学习/深度学习 JSON API
Python编程实战:构建一个简单的天气预报应用
Python编程实战:构建一个简单的天气预报应用
19 1
|
10天前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
16天前
|
数据可视化 开发者 Python
Python GUI开发:Tkinter与PyQt的实战应用与对比分析
【10月更文挑战第26天】本文介绍了Python中两种常用的GUI工具包——Tkinter和PyQt。Tkinter内置于Python标准库,适合初学者快速上手,提供基本的GUI组件和方法。PyQt基于Qt库,功能强大且灵活,适用于创建复杂的GUI应用程序。通过实战示例和对比分析,帮助开发者选择合适的工具包以满足项目需求。
59 7
|
14天前
|
存储 Kotlin
正则表达式在Kotlin中的应用:提取图片链接
正则表达式在Kotlin中的应用:提取图片链接