Python新手必看:正则表达式入门到精通只需这一篇!

简介: 了解 Python 中的正则表达式,用于高效处理字符串。导入 `re` 模块,用 `r` 前缀避免转义困扰。示例:`re.split` 切分字符串,`re.findall` 进行匹配与查找,数量词如 `*`, `+`, `?` 控制匹配次数,边界匹配定位开始或结束。使用 `group` 和 `sub` 进行组合操作,解决复杂文本处理问题。正则表达式是字符串处理的利器,助你轻松应对各种场景。

在编程世界里,处理字符串是一项基本而又常见的任务。无论是数据清洗、日志分析,还是文本处理,我们都可能会遇到需要从一大堆文本中提取出我们需要的信息的场景。

这时候,正则表达式(Regular Expression)就成为了我们强大的工具。Python 作为一门功能丰富的编程语言,自然也提供了对正则表达式的强力支持。

今天,就让我们一起来学习如何在 Python 中使用正则表达式,轻松搞定字符串处理任务。

正则表达式初探

在 Python 中使用正则表达式之前,我们首先需要引入 re 模块。

import re

由于 Python 字符串和正则表达式都使用 \ 作为转义符,这有时会造成混淆。例如,当我们需要匹配字符 ABC\-001 时:

s = 'ABC\\-001' # 这里要注意 Python 字符串的转义

为了避免转义带来的麻烦,我们推荐使用 Python 的 r 前缀,这样字符串内部的表达式会被直接处理,不需要考虑转义的问题:

s = r'ABC\-001' # 使用 r 前缀,更直观

常用操作实例

以下是使用正则表达式进行常见字符串操作的一些实例。

切分字符串

利用正则表达式可以非常灵活地切分字符串。

r = re.split(r'[\s\,\;]+', 'a,b;; c  d')
print(r)  # 输出:['a', 'b', 'c', 'd']

匹配与查找

  • 匹配普通字符:直接将字符本身作为匹配模式。
a = 'c++|c#|php|python|java|javascript'
r = re.findall('Python', a)
print(r)  # 输出:[]
  • 匹配数字和非数字字符
# 匹配数字和非数字字符
r = re.findall('\d', a)   # 数字
r = re.findall('\D', a)   # 非数字
  • 匹配字符集:可匹配指定范围内的字符。
s = 'abc, acc, adc, aec, afc, ahc'
r = re.findall('a[cf]c', s)  # 匹配 'acc', 'afc'
res = re.findall('a[^cf]c', s)  # 排除 'acc', 'afc'
result = re.findall('a[c-f]c', s)  # 匹配 'acc', 'adc', 'aec', 'afc'

使用数量词

正则表达式通过数量词来指定字符出现的次数,包括贪婪模式和非贪婪模式。

s = 'python46546java&79879php'

# 默认贪婪模式
r1 = re.findall('[a-z]{3,6}', s) 

# 非贪婪模式
r2 = re.findall('[a-z]{3,6}?', s)

print(r1)  # 输出:['python', 'java', 'php']
print(r2)  # 输出:['pyt', 'hon', 'jav', 'php']

量词的使用:*,+,?

  • * 表示匹配前面的字符0次或多次。
  • + 表示匹配前面的字符1次或多次。
  • ? 表示匹配前面的字符0次或1次。
s = 'pytho0python1pythonn2'
r1 = re.findall('python*', s)  # 匹配 'python' 0次或多次
r2 = re.findall('python+', s)  # 匹配 'python' 1次或多次
r3 = re.findall('python?', s)  # 匹配 'python' 0次或1次

使用边界匹配

边界匹配可以帮助我们匹配字符串的开始或结束位置。

s = '10000146'
r1 = re.findall('^00000', s)  # 查找开头为 00000 的字符串
r2 = re.findall('00000$', s)  # 查找结尾为 00000 的字符串

进阶技巧

组合使用 groupsub

使用组(Group)提取数据,结合 sub 进行字符串的替换和处理,可以实现复杂的文本处理逻辑。

s = 'A8C34DD64GT79UI79D759'
def convert(value):
    matched = value.group()
    return '9' if int(matched) >= 6 else '0'
r = re.sub('\d', convert, s)

使用 group 提取数据

对于复杂的匹配需求,group 可以帮助我们提取感兴趣的数据。

s = 'life is short , i use python'
r1 = re.search('life(.*)python', s)
print(r1.group(1))  # 输出:' is short , i use '

通过上面的示例,我们不难看出,正则表达式是处理文本字符串的强大工具。

希望本文能帮助你在 Python 编程之旅中,轻松驾驭正则表达式,解决各类字符串处理问题。

相关文章
|
1月前
|
API 数据安全/隐私保护 开发者
Python自定义异常:从入门到实践的轻松指南
在Python开发中,自定义异常能提升错误处理的精准度与代码可维护性。本文通过银行系统、电商库存等实例,详解如何创建和使用自定义异常,涵盖异常基础、进阶技巧、最佳实践与真实场景应用,助你写出更专业、易调试的代码。
81 0
|
1月前
|
IDE 开发工具 数据安全/隐私保护
Python循环嵌套:从入门到实战的完整指南
循环嵌套是Python中处理多维数据和复杂逻辑的重要工具。本文通过实例讲解嵌套循环的基本用法、常见组合、性能优化技巧及实战应用,帮助开发者掌握其核心思想,避免常见错误,并探索替代方案与进阶方向。
91 0
|
3月前
|
Python
Python字符串格式化利器:f-strings入门指南
Python字符串格式化利器:f-strings入门指南
195 80
|
5月前
|
数据采集 监控 数据安全/隐私保护
Python正则表达式:用"模式密码"解锁复杂字符串
正则表达式是处理字符串的强大工具,本文以Python的`re`模块为核心,详细解析其原理与应用。从基础语法如字符类、量词到进阶技巧如贪婪匹配与预定义字符集,结合日志分析、数据清洗及网络爬虫等实战场景,展示正则表达式的强大功能。同时探讨性能优化策略(如预编译)和常见错误解决方案,帮助开发者高效掌握这一“瑞士军刀”。最后提醒,合理使用正则表达式,避免过度复杂化,追求简洁优雅的代码风格。
141 0
|
7月前
|
程序员 UED Python
Python入门:3.Python的输入和输出格式化
在 Python 编程中,输入与输出是程序与用户交互的核心部分。而输出格式化更是对程序表达能力的极大增强,可以让结果以清晰、美观且易读的方式呈现给用户。本文将深入探讨 Python 的输入与输出操作,特别是如何使用格式化方法来提升代码质量和可读性。
Python入门:3.Python的输入和输出格式化
|
7月前
|
机器学习/深度学习 人工智能 算法框架/工具
Python入门:1.Python介绍
Python是一种功能强大、易于学习和运行的解释型高级语言。由**Guido van Rossum**于1991年创建,Python以其简洁、易读和十分工程化的设计而带来了庞大的用户群体和丰富的应用场景。这个语言在全球范围内都被认为是**创新和效率的重要工具**。
Python入门:1.Python介绍
|
1月前
|
监控 Linux 数据安全/隐私保护
Python实现Word转PDF全攻略:从入门到实战
在数字化办公中,Python实现Word转PDF自动化,可大幅提升处理效率,解决格式兼容问题。本文详解五种主流方案,包括跨平台的docx2pdf、Windows原生的pywin32、服务器部署首选的LibreOffice命令行、企业级的Aspose.Words,以及轻量级的python-docx+pdfkit组合。每种方案均提供核心代码与适用场景,并涵盖中文字体处理、表格优化、批量进度监控等实用技巧,助力高效办公自动化。
328 0
|
2月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
88 1
|
3月前
|
NoSQL MongoDB 开发者
Python与MongoDB的亲密接触:从入门到实战的代码指南
本文详细介绍了Python与MongoDB结合使用的实战技巧,涵盖环境搭建、连接管理、CRUD操作、高级查询、索引优化、事务处理及性能调优等内容。通过15个代码片段,从基础到进阶逐步解析,帮助开发者掌握这对黄金组合的核心技能。内容包括文档结构设计、批量操作优化、聚合管道应用等实用场景,适合希望高效处理非结构化数据的开发者学习参考。
217 0

热门文章

最新文章

推荐镜像

更多