【python】一篇玩转正则表达式

简介: 【python】一篇玩转正则表达式

前言

正则表达式(Regular Expression),又称规则表达式,它不是某个编程语言所特有的,是计算机科学的一个概念,通常被用来检索和替换符合某些规则的文本。

正则表达式

行定位符
1.^
表示行的开始

2.$
表示行的结尾

举例

^py该表达式表示要匹配字符串py的开始位置是行头,如py equal python可以匹配而python equal py不能匹配

py$后者可以匹配,前者不能,如果要匹配的字符串可以出现在字符串的任意部分,那么可以直接写成py

元字符

常见的元字符
元字符 说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
限定符
如果想匹配特定数量的数字,需要使用限定符(指定数量的字符)来实现,例如匹配8位QQ号就是:^\d{8}$

^表示行的开始,\d表示匹配数字,{8}就是限定符表示匹配前面的字符8次,$表示行的结束

常用的限定符
限定符 说明 举例
? 匹配前面的字符零次或一次 pytho?n,可以匹配为python或pythn

  • 匹配前面的字符一次或多次 py+thon,可以匹配为python到pyy...thon
  • 匹配前面的字符零次或多次 py*thon,可以匹配为pthon到pyy...thon

{n} 匹配前面的字符n次 py{2}thon,只能匹配pyython
{n,} 匹配前面的字符最少n次 py{2,,}thon,可以匹配pyython到pyy...thon
{n,m} 匹配前面的字符最少n次,最多m次 python{0,2},可以匹配pytho、python、pythonn三种情况
字符类
正则表达式查找数字和字母是简单的事,因为有元字符,但是如果没有预定义元字符的字符合集(比如元音字母),那该怎么办呢?

也简单,在方括号里列出他们,[aeiou]就是匹配元音字母,[0-9]代表的含义就和\d完全一致,代表一个数字,[a-z0-9A-Z_]等同于\w(不考虑汉字),如果想匹配任意一个汉字,可以使用[\u4e00-\u9fa5],匹配多个汉字,只需在前面的基础上加个+即[\u4e00-\u9fa5]+

排除字符
匹配不符合指定字符集合的字符串,^放在方括号表示排除的意思

举例

1表示匹配一个不是字母的字符

选择字符
如果我们想要它匹配的结果是多种,就需要使用选择字符(|)该字符是或的意思

举例

身份证的长度为15位或18位,其中15位全为数字,18位分为全为数字和前17位为数字最后一位可能是数字或字符X,那么匹配的表达式可写为:

(^\d{15}$)|(^\d{18}$)|(^\d{17})(\d|X|x)$

转义字符
转义字符的作用就是将特殊字符(如“.”“?”“\”)变为普通的字符,例如匹配QQ邮箱:

^[1-9]\d{4,10}@qq.com$

括号在正则表达式也算是元字符

()
作用一:改变限定符的作用范围

作用二:分组,也就是子表达式(.[0,9]{1,4}){4},就是对其进行重复操作

python使用正则表达式
匹配字符串
match()
从字符串的开始处进行匹配,如果起始位置匹配成功,则返回Match对象,否则返回None。语法格式如下:

re.match(pattern,string,[flags])
pattern:表示模式字符串,由要匹配的正则表达式转换而来

string:表示要匹配的字符串

flags:表示标志位,用于控制匹配方式,如是否区分字母大小写

常用标志

标志 说明
A或ASCII 对\w,\b,\d,\s,只进行ASCII匹配
I或IGNORECASE 不区分字母大小写
M或MULTILINE 将^和$用于包括整个字符串的开始和结尾的每一行
S或DOTALL 使用“.”字符匹配所有字符,包括换行符
X或VERBOSE 忽略模式字符串中未转义的空格和注释
举例

匹配字符串是否以“mr_”开头,不区分字母大小写

代码

import re
pattern='mr_\w+'
string='MR_SHOP mr_shop'
match=re.match(pattern,string,re.I)
print(match)
print('匹配值的起始位置:',match.start())
print('匹配值的结束位置:',match.end())
print('匹配位置的元组:',match.span())
print('要匹配的字符串:',match.string)
print('匹配数据:',match.group())
string='名称 MR_SHOP mr_shop'
match=re.match(pattern,string,re.I)
print(match)

执行结果

image.png

search()
在整个字符串中搜索第一个匹配的值,如果在起始位置匹配成功,则返回Match(),否则返回None,语法格式如下:

re.search(patter,string,[flags])
pattern:表示模式字符串,由要匹配的正则表达式转换而来

string:表示要匹配的字符串

flags:表示标志位,用于控制匹配方式,如是否区分字母大小写

举例

搜索第一个以“mr_”开头的字符串,不区分字母大小写

代码

import re
pattern='mr_\w+'
string='MR_SHOP mr_shop'
search=re.search(pattern,string,re.I)
print(search)
string='名称 MR_SHOP mr_shop'
search=re.search(pattern,string,re.I)
print(search)
执行结果

image.png

findall()
在整个字符串中搜索 所有符合正则表达式的字符串,并以列表的形式返回,如果匹配成功,则返回包含匹配结构的列表,否则返回空列表,语法格式如下:

re.findall(pattern,string,[flags])
pattern:表示模式字符串,由要匹配的正则表达式转换而来

string:表示要匹配的字符串

flags:表示标志位,用于控制匹配方式,如是否区分字母大小写

举例

搜索以“mr_”开头的字符串

代码

import re
pattern='mr_\w+'
string='MR_SHOP mr_shop'
findall=re.findall(pattern,string,re.I)
print(findall)
string='名称 MR_SHOP mr_shop'
findall=re.findall(pattern,string)
print(findall)
执行结果

image.png

sub()
实现字符串替换,语法格式如下:

re.sub(patter,repl,string,count,flags)
pattern:表示模式字符串,由要匹配的正则表达式转换而来

repl:表示替换的字符串

string:表示要被查找替换的原始字符串

count:可选参数,表示模式匹配后替换的最大次数,默认值为0

flags:表示标志位,用于控制匹配方式,如是否区分字母大小写

举例

隐藏快递里的手机号码

代码

import re
pattern='1[34578]\d{5}'
string='快递号:7-1563 联系电话:18888358853'
result=re.sub(pattern,'1XXXXXX',string)
print(result)

执行结果
image.png

替换敏感字符
代码

import re
pattern='淘宝'
string='我在淘宝买东西'
result=re.sub(pattern,'某宝',string)
print(result)

执行结果
image.png

split()
根据正则表达式分割字符串,并以列表的形式返回,语法格式如下:

re.split(pattern,string,[maxsplit],[flags])
pattern:表示模式字符串,由要匹配的正则表达式转换而来

string:表示要匹配的字符串

maxsplit:可选参数,表示最大的拆分次数

flags:表示标志位,用于控制匹配方式,如是否区分字母大小写

举例

对给定的url地址中提取请求地址和各个参数

代码

import re
pattern='[?|&]'
url='http://www.baidu.com/login?username="zhangsan"&pwd="password"'
result=re.split(pattern,url)
print(result)

执行结果
image.png


  1. a-zA-Z
相关文章
|
4月前
|
Python
"揭秘!Python如何运用神秘的正则表达式,轻松穿梭于网页迷宫,一键抓取隐藏链接?"
【8月更文挑战第21天】Python凭借其强大的编程能力,在数据抓取和网页解析领域表现出高效与灵活。通过结合requests库进行网页请求及正则表达式进行复杂文本模式匹配,可轻松提取网页信息。本示例展示如何使用Python和正则表达式解析网页链接。首先确保已安装requests库,可通过`pip install requests`安装。接着,利用requests获取网页内容,并使用正则表达式提取所有`<a>`标签的`href`属性。
52 0
|
1月前
|
Python
在Python中,可以使用内置的`re`模块来处理正则表达式
在Python中,可以使用内置的`re`模块来处理正则表达式
46 5
|
1月前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
2月前
|
Python
【收藏备用】Python正则表达式的7个实用技巧
【收藏备用】Python正则表达式的7个实用技巧
32 1
|
2月前
|
数据安全/隐私保护 Python
Python实用正则表达式归纳
Python实用正则表达式归纳
20 3
|
2月前
|
Python
Python 正则表达式高级应用指南
正则表达式是文本模式匹配的强大工具,Python 的 `re` 模块支持其操作。本文介绍正则表达式的高级应用,包括复杂模式匹配(如邮箱、电话号码)、分组与提取、替换操作、多行匹配以及贪婪与非贪婪模式的区别。通过示例代码展示了如何灵活运用这些技巧解决实际问题。
31 7
|
2月前
|
JavaScript 前端开发 Scala
Python学习十:正则表达式
这篇文章是关于Python中正则表达式的使用,包括re模块的函数、特殊字符、匹配模式以及贪婪与非贪婪模式的详细介绍。
19 0
|
2月前
|
数据采集 开发者 Python
Python正则表达式之re.compile函数
`re.compile`是Python正则表达式处理中一个强大的工具,它通过预先编译正则表达式,不仅提升了执行效率,还增强了代码的组织性和可读性。掌握其使用,对于涉及文本分析、数据清洗、日志处理等领域的Python开发者来说,是非常必要的技能。正确并高效地应用这一功能,可以显著提升程序的性能和维护性。
134 0
|
3月前
|
索引 Python
30天拿下Python之正则表达式
30天拿下Python之正则表达式
20 0
|
3月前
|
数据采集 Python
Python正则表达式提取车牌号
Python正则表达式提取车牌号
49 0