动手学正则表达式(含Python代码实践)(上)

简介: 动手学正则表达式(含Python代码实践)(上)

正则表达式


「本文将从简单到容易,通过🌰解释常用的正则表达式的用法。全文分为以下几部分:」


  1. python库函数
  2. 匹配单个字符
  3. 匹配多个字符
  4. 元字符
  5. 重复字符串匹配
  6. 位置匹配
  7. 使用子表达式
  8. 使用回溯
  9. 前后查找
  10. 嵌入条件


0. python库函数



常用的正则表达式包是re,其中使用最多的几个函数为:


re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。


re.search 扫描整个字符串并返回第一个成功的匹配。


re.findall 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。


本文将使用其中的函数,简单封装成一个便于输出的接口调用


import re#python常用的正则表达式包
def get_res(regex,text):
    res=re.findall(regex,text)
    print('findall res:',res)
    res=re.search(regex,text)
    print('search res:',res)


1.匹配单个字符



example 1: 单个字符


text="Hello, my name is Van. Please visit my website at https://www.zhihu.com/people/le-yifan-35."


get_res(r'Van',text)


findall res: ['Van']
search res: <re.Match object; span=(18, 21), match='Van'>


example 2:匹配任何字符


微信图片_20220524140757.png


text="sales1.xls\
orders3.xls\
sales2.xls\
sales3.xls\
apac1.xls\
europe2.xls"


get_res(r'sales.',text)


findall res: ['sales1', 'sales2', 'sales3']
search res: <re.Match object; span=(0, 6), match='sales1'>


2. 匹配多个字符



example 1:匹配多个字符


微信图片_20220524140818.png


text="sales1.xls\
orders3.xls\
sales2.xls\
sales3.xls\
apac1.xls\
europe2.xls\
na1.xls\
na2.xls\
sa1.xls\
ca1.xls"


get_res(r'[ns]a.\.xls',text)


findall res: ['na1.xls', 'na2.xls', 'sa1.xls']
search res: <re.Match object; span=(61, 68), match='na1.xls'>


example 2:匹配多个字符


text="The phrase “regular expression” is often abbreviated as RegEx or regex."


get_res(r'[Rr]eg[Ee]x',text)


findall res: ['RegEx', 'regex']
search res: <re.Match object; span=(56, 61), match='RegEx'>


example 3:设定字符的范围


text="sales1.xls\
orders3.xls\
sales2.xls\
sales3.xls\
apac1.xls\
europe2.xls\
na1.xls\
na2.xls\
sa1.xls\
ca1.xls"
get_res(r'[ns]a[0123456789]\.xls',text)
get_res(r'[ns]a[0-9]\.xls',text)


findall res: ['na1.xls', 'na2.xls', 'sa1.xls']
search res: <re.Match object; span=(61, 68), match='na1.xls'>
findall res: ['na1.xls', 'na2.xls', 'sa1.xls']
search res: <re.Match object; span=(61, 68), match='na1.xls'>


example 4:设定字符的范围


text="<BODY BGCOLOR=”#336633” TEXT=”#FFFFFF” MARGINWIDTH=”0” MARGINHEIGHT=”0” TOPMARGIN=”0” LEFTMARGIN=”0”>"
get_res(r'[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f]',text)


findall res: ['336633', 'FFFFFF']
search res: <re.Match object; span=(16, 22), match='336633'>


example 5:取非匹配


微信图片_20220524140847.png


text="sales1.xls\
orders3.xls\
sales2.xls\
sales3.xls\
apac1.xls\
europe2.xls\
sam.xls\
na1.xls\
na2.xls\
sa1.xls\
ca1.xls"
get_res(r'[ns]a[^0-9]\.xls',text)


findall res: ['sam.xls']
search res: <re.Match object; span=(61, 68), match='sam.xls'>


3. 元字符



元字符指的是这个字符有特殊的含义,而不是字符本身的含义

example 1:元字符'[]'


text="var myArray = new Array();\
...\
if (myArray[0] == 0) {\
...\
}"
get_res(r'myArray[0]',text)
get_res(r'myArray\[0\]',text)


findall res: []
search res: None
findall res: ['myArray[0]']
search res: <re.Match object; span=(33, 43), match='myArray[0]'>


example 2:元字符'\'


text="\ home\  ben\ sales\ "
get_res(r'\\',text)


findall res: ['\\', '\\', '\\', '\\']
search res: <re.Match object; span=(0, 1), match='\\'>


example 3:空白字符


微信图片_20220524140910.png


text="“101”,”Ben”,”Forta”\
“102”,”Jim”,”James”\r\n\
\r\n\
“103”,”Roberta”,”Robertson”\
“104”,”Bob”,”Bobson”"
get_res(r'\r\n\r\n',text)


findall res: ['\r\n\r\n']
search res: <re.Match object; span=(38, 42), match='\r\n\r\n'>


example 4:数字元字符


微信图片_20220524140923.png


text="var myArray = new Array();\
...\
if (myArray[0] == 0) {\
...\
}"
get_res(r'myArray\[\d\]',text)


findall res: ['myArray[0]']
search res: <re.Match object; span=(33, 43), match='myArray[0]'>


example 5:字母数字元字符


微信图片_20220524140935.png


text='11213 \
A1C2E3 \
48075 \
48237 \
M1B4F2 \
90046 \
H1H2H2'
get_res(r'\w\d\w\d\w\d',text)


findall res: ['A1C2E3', 'M1B4F2', 'H1H2H2']
search res: <re.Match object; span=(6, 12), match='A1C2E3'>


4. 重复字符串匹配



微信图片_20220524140950.png


example 1:匹配0个或者多个字符


text='Hello .ben@forta.com is my email address.'
get_res(r'\w+[\w.]*@[\w.]+\.\w+',text)


findall res: ['ben@forta.com']
search res: <re.Match object; span=(7, 20), match='ben@forta.com'>


text="The URL is http://www.forta.com/, to connect securely use https://www.forta.com/ instead."
get_res(r"https?://[\w./]+",text)


findall res: ['http://www.forta.com/', 'https://www.forta.com/']
search res: <re.Match object; span=(11, 32), match='http://www.forta.com/'>


example 2:


微信图片_20220524141006.png


text="<BODY BGCOLOR=”#336633” TEXT=”#FFFFFF” MARGINWIDTH=”0” MARGINHEIGHT=”0” TOPMARGIN=”0” LEFTMARGIN=”0”>"
get_res(r"\d{6}",text)


findall res: ['336633']
search res: <re.Match object; span=(16, 22), match='336633'>


example 3:范围匹配


text="4/8/03 \
10-6-2004 \
2/2/2 \
01-01-01"
get_res(r"\d{1,2}[-\/]\d{1,2}[-\/]\d{2,4}",text)


findall res: ['4/8/03', '10-6-2004', '01-01-01']
search res: <re.Match object; span=(0, 6), match='4/8/03'>


example 4:至少多少 次数匹配


text="1001: $496.80 1002: $1290.69 1003: $26.43 1004: $613.42 1005: $7.61 1006: $414.90 1007: $25.00"
get_res(r"\d+: \$\d{3,}\.\d{2}",text)


findall res: ['1001: $496.80', '1002: $1290.69', '1004: $613.42', '1006: $414.90']
search res: <re.Match object; span=(0, 13), match='1001: $496.80'>


example 5:防止过度匹配


微信图片_20220524141025.png


text="This offer is not available to customers living in <B>AK</B> and <B>HI</B>."
get_res(r"<[Bb]>.*</[Bb]>",text)
get_res(r"<[Bb]>.*?</[Bb]>",text)


findall res: ['<B>AK</B> and <B>HI</B>']
search res: <re.Match object; span=(51, 74), match='<B>AK</B> and <B>HI</B>'>
findall res: ['<B>AK</B>', '<B>HI</B>']
search res: <re.Match object; span=(51, 60), match='<B>AK</B>'>


相关文章
|
5天前
|
开发者 Python
探索Python中的装饰器:简化代码,增强功能
【10月更文挑战第22天】在Python的世界里,装饰器是一个强大的工具,它能够让我们以简洁的方式修改函数的行为,增加额外的功能而不需要重写原有代码。本文将带你了解装饰器的基本概念,并通过实例展示如何一步步构建自己的装饰器,从而让你的代码更加高效、易于维护。
|
1天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
7 3
|
5天前
|
数据可视化 数据挖掘 Python
使用Python进行数据可视化:探索与实践
【10月更文挑战第21天】本文旨在通过Python编程,介绍如何利用数据可视化技术来揭示数据背后的信息和趋势。我们将从基础的图表创建开始,逐步深入到高级可视化技巧,包括交互式图表和动态展示。文章将引导读者理解不同图表类型适用的场景,并教授如何使用流行的库如Matplotlib和Seaborn来制作美观且具有洞察力的可视化作品。
20 7
|
6天前
|
开发框架 Python
探索Python中的装饰器:简化代码,增强功能
【10月更文挑战第20天】在编程的海洋中,简洁与强大是航行的双桨。Python的装饰器,这一高级特性,恰似海风助力,让代码更优雅、功能更强大。本文将带你领略装饰器的奥秘,从基础概念到实际应用,一步步深入其内涵与意义。
|
3天前
|
测试技术 开发者 Python
探索Python中的装饰器:从入门到实践
【10月更文挑战第24天】 在Python的世界里,装饰器是一个既神秘又强大的工具。它们就像是程序的“隐形斗篷”,能在不改变原有代码结构的情况下,增加新的功能。本篇文章将带你走进装饰器的世界,从基础概念出发,通过实际例子,逐步深入到装饰器的高级应用,让你的代码更加优雅和高效。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效编程的大门。
|
4天前
|
机器学习/深度学习 缓存 数据挖掘
Python性能优化:提升你的代码效率
【10月更文挑战第22天】 Python性能优化:提升你的代码效率
8 1
|
9天前
|
调度 开发者 Python
探索Python中的异步编程:从基础到实践
在本文中,我们将深入探讨Python的异步编程世界。从asyncio库的基本概念出发,我们将逐步构建起对异步编程的理解,并探索如何在实际项目中应用这些技术。本文不仅涵盖了异步编程的基础知识,还提供了实用的代码示例,旨在帮助读者在Python中有效地使用异步编程,以提高应用程序的性能和响应能力。
|
7天前
|
机器人 Shell Linux
【Azure Bot Service】部署Python ChatBot代码到App Service中
本文介绍了使用Python编写的ChatBot在部署到Azure App Service时遇到的问题及解决方案。主要问题是应用启动失败,错误信息为“Failed to find attribute &#39;app&#39; in &#39;app&#39;”。解决步骤包括:1) 修改`app.py`文件,添加`init_func`函数;2) 配置`config.py`,添加与Azure Bot Service认证相关的配置项;3) 设置App Service的启动命令为`python3 -m aiohttp.web -H 0.0.0.0 -P 8000 app:init_func`。
|
11天前
|
人工智能 IDE 测试技术
使用通义灵码提升Python开发效率:从熟悉代码到实现需求的全流程体验
作为一名Python开发者,我最近开始使用通义灵码作为开发辅助工具。它显著提高了我的工作效率,特别是在理解和修改复杂代码逻辑方面。通过AI编码助手,我能够在短时间内快速上手新项目,实现新需求,并进行代码优化,整体效率提升了60%以上。通义灵码不仅加快了代码生成速度,还增强了代码的健壮性和稳定性。
|
11天前
|
数据处理 开发者 Python
Python中的列表推导式:一种优雅的代码简化技巧####
【10月更文挑战第15天】 本文将深入浅出地探讨Python中列表推导式的使用,这是一种强大且简洁的语法结构,用于从现有列表生成新列表。通过具体示例和对比传统循环方法,我们将揭示列表推导式如何提高代码的可读性和执行效率,同时保持语言的简洁性。无论你是Python初学者还是有经验的开发者,掌握这一技能都将使你的编程之旅更加顺畅。 ####
16 1