Python新手必看:正则表达式入门到精通只需这一篇!

简介: 了解 Python 中的正则表达式,用于高效处理字符串。导入 `re` 模块,用 `r` 前缀避免转义困扰。示例:`re.split` 切分字符串,`re.findall` 进行匹配与查找,数量词如 `*`, `+`, `?` 控制匹配次数,边界匹配定位开始或结束。使用 `group` 和 `sub` 进行组合操作,解决复杂文本处理问题。正则表达式是字符串处理的利器,助你轻松应对各种场景。

在编程世界里,处理字符串是一项基本而又常见的任务。无论是数据清洗、日志分析,还是文本处理,我们都可能会遇到需要从一大堆文本中提取出我们需要的信息的场景。

这时候,正则表达式(Regular Expression)就成为了我们强大的工具。Python 作为一门功能丰富的编程语言,自然也提供了对正则表达式的强力支持。

今天,就让我们一起来学习如何在 Python 中使用正则表达式,轻松搞定字符串处理任务。

正则表达式初探

在 Python 中使用正则表达式之前,我们首先需要引入 re 模块。

import re

由于 Python 字符串和正则表达式都使用 \ 作为转义符,这有时会造成混淆。例如,当我们需要匹配字符 ABC\-001 时:

s = 'ABC\\-001' # 这里要注意 Python 字符串的转义

为了避免转义带来的麻烦,我们推荐使用 Python 的 r 前缀,这样字符串内部的表达式会被直接处理,不需要考虑转义的问题:

s = r'ABC\-001' # 使用 r 前缀,更直观

常用操作实例

以下是使用正则表达式进行常见字符串操作的一些实例。

切分字符串

利用正则表达式可以非常灵活地切分字符串。

r = re.split(r'[\s\,\;]+', 'a,b;; c  d')
print(r)  # 输出:['a', 'b', 'c', 'd']

匹配与查找

  • 匹配普通字符:直接将字符本身作为匹配模式。
a = 'c++|c#|php|python|java|javascript'
r = re.findall('Python', a)
print(r)  # 输出:[]
  • 匹配数字和非数字字符
# 匹配数字和非数字字符
r = re.findall('\d', a)   # 数字
r = re.findall('\D', a)   # 非数字
  • 匹配字符集:可匹配指定范围内的字符。
s = 'abc, acc, adc, aec, afc, ahc'
r = re.findall('a[cf]c', s)  # 匹配 'acc', 'afc'
res = re.findall('a[^cf]c', s)  # 排除 'acc', 'afc'
result = re.findall('a[c-f]c', s)  # 匹配 'acc', 'adc', 'aec', 'afc'

使用数量词

正则表达式通过数量词来指定字符出现的次数,包括贪婪模式和非贪婪模式。

s = 'python46546java&79879php'

# 默认贪婪模式
r1 = re.findall('[a-z]{3,6}', s) 

# 非贪婪模式
r2 = re.findall('[a-z]{3,6}?', s)

print(r1)  # 输出:['python', 'java', 'php']
print(r2)  # 输出:['pyt', 'hon', 'jav', 'php']

量词的使用:*,+,?

  • * 表示匹配前面的字符0次或多次。
  • + 表示匹配前面的字符1次或多次。
  • ? 表示匹配前面的字符0次或1次。
s = 'pytho0python1pythonn2'
r1 = re.findall('python*', s)  # 匹配 'python' 0次或多次
r2 = re.findall('python+', s)  # 匹配 'python' 1次或多次
r3 = re.findall('python?', s)  # 匹配 'python' 0次或1次

使用边界匹配

边界匹配可以帮助我们匹配字符串的开始或结束位置。

s = '10000146'
r1 = re.findall('^00000', s)  # 查找开头为 00000 的字符串
r2 = re.findall('00000$', s)  # 查找结尾为 00000 的字符串

进阶技巧

组合使用 groupsub

使用组(Group)提取数据,结合 sub 进行字符串的替换和处理,可以实现复杂的文本处理逻辑。

s = 'A8C34DD64GT79UI79D759'
def convert(value):
    matched = value.group()
    return '9' if int(matched) >= 6 else '0'
r = re.sub('\d', convert, s)

使用 group 提取数据

对于复杂的匹配需求,group 可以帮助我们提取感兴趣的数据。

s = 'life is short , i use python'
r1 = re.search('life(.*)python', s)
print(r1.group(1))  # 输出:' is short , i use '

通过上面的示例,我们不难看出,正则表达式是处理文本字符串的强大工具。

希望本文能帮助你在 Python 编程之旅中,轻松驾驭正则表达式,解决各类字符串处理问题。

相关文章
|
1月前
|
大数据 数据处理 数据安全/隐私保护
Python3 迭代器与生成器详解:从入门到实践
简介:本文深入解析Python中处理数据序列的利器——迭代器与生成器。通过通俗语言与实战案例,讲解其核心原理、自定义实现及大数据处理中的高效应用。
75 0
|
11天前
|
测试技术 开发者 Python
Python单元测试入门:3个核心断言方法,帮你快速定位代码bug
本文介绍Python单元测试基础,详解`unittest`框架中的三大核心断言方法:`assertEqual`验证值相等,`assertTrue`和`assertFalse`判断条件真假。通过实例演示其用法,帮助开发者自动化检测代码逻辑,提升测试效率与可靠性。
102 1
|
2月前
|
API 数据安全/隐私保护 开发者
Python自定义异常:从入门到实践的轻松指南
在Python开发中,自定义异常能提升错误处理的精准度与代码可维护性。本文通过银行系统、电商库存等实例,详解如何创建和使用自定义异常,涵盖异常基础、进阶技巧、最佳实践与真实场景应用,助你写出更专业、易调试的代码。
102 0
|
2月前
|
IDE 开发工具 数据安全/隐私保护
Python循环嵌套:从入门到实战的完整指南
循环嵌套是Python中处理多维数据和复杂逻辑的重要工具。本文通过实例讲解嵌套循环的基本用法、常见组合、性能优化技巧及实战应用,帮助开发者掌握其核心思想,避免常见错误,并探索替代方案与进阶方向。
106 0
|
16天前
|
调度 数据库 Python
Python异步编程入门:asyncio让并发变得更简单
Python异步编程入门:asyncio让并发变得更简单
84 5
|
4月前
|
Python
Python字符串格式化利器:f-strings入门指南
Python字符串格式化利器:f-strings入门指南
221 80
|
29天前
|
数据采集 存储 XML
Python爬虫入门(1)
在互联网时代,数据成为宝贵资源,Python凭借简洁语法和丰富库支持,成为编写网络爬虫的首选。本文介绍Python爬虫基础,涵盖请求发送、内容解析、数据存储等核心环节,并提供环境配置及实战示例,助你快速入门并掌握数据抓取技巧。
|
6月前
|
数据采集 监控 数据安全/隐私保护
Python正则表达式:用"模式密码"解锁复杂字符串
正则表达式是处理字符串的强大工具,本文以Python的`re`模块为核心,详细解析其原理与应用。从基础语法如字符类、量词到进阶技巧如贪婪匹配与预定义字符集,结合日志分析、数据清洗及网络爬虫等实战场景,展示正则表达式的强大功能。同时探讨性能优化策略(如预编译)和常见错误解决方案,帮助开发者高效掌握这一“瑞士军刀”。最后提醒,合理使用正则表达式,避免过度复杂化,追求简洁优雅的代码风格。
152 0
|
1月前
|
存储 缓存 安全
Python字典:从入门到精通的实用指南
Python字典如瑞士军刀般强大,以键值对实现高效数据存储与查找,广泛应用于配置管理、缓存、统计等场景。本文详解字典基础、进阶技巧、实战应用与常见陷阱,助你掌握这一核心数据结构,写出更高效、优雅的Python代码。
44 0

推荐镜像

更多