Python标准库01 正则表达式(re包)

简介: python正则表达式基础 简单介绍 正则表达式并不是python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。

python正则表达式基础

简单介绍

正则表达式并不是python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。在提供正则表达式的语言里,正则表达式的语法是一样的,区别只在于不同的贬称语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的的部分。

正则表达式进行匹配的流程

正则表达式引擎“编译”<正则表达式>得到正则表达式对象(正则表达式引擎编译表达式字符串得到的对象,包含应如何进行匹配的信息),正则表达式对象需要匹配的文本进行"匹配",生成匹配结果(正则表达式对象对文本进行匹配后得到的结果,包含了这次成功匹配的信息,如匹配到的字符串、分组以及在文本中的索引)。

匹配大概过程

正则表达式的大致匹配过程是:一次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界,这个过程会稍微有些不同,但也是很好理解的,多看实例多使用几次就能明白。

python支持的正则表达式元字符和语法

语法         说明                                                表达实例        完整匹配的字符串
一般字符     匹配自身                                            abc             abc
.            匹配任意一个字符("\n")                          a.c             abc
\            转义字符, 使后一个字符改变原来的意思                a\.c            a.c
[...]        字符集(字符类)对应位置可以是字符集中任意一个字符    a[bcd]e         abe  ace  ade
a|b          字符a或字符b   <-等价于-> [ab]
[0-9]        数字0-9其中一个字符
[a-z]        小写字母a-z其中一个字符
[A-Z]        大写字母A-Z其中一个字符
[^m]         不是字符m
---------------------------------------------------------------------------------------------------
\d           数字:[0-9]                                         a\dc            a1c
\D           非数字:[^\d]                                       a\Dc            abc
\s           空白字符:[<空格>\t\r\n\f\v]                        a\sc            a c
\S           非空白字符:[^\s]                                   a\Sc            abc
\w           单词字符:[A-Za-z0-9]                               a\wc            abc
\W           非单词字符:[^\w]                                   a\Wc            a c
-------------------------数量词(重复)------------------------------------------------------
*            匹配前一个字符0次或无限次(>=0)                      abc*            ab  abc abcc abccc ...
+            匹配前一个字符1次或无限次(>=1)                      abc+            abc abcc abccc ...
?            匹配前一个字符0次或1abc?            ab abc
{m}          匹配前一个字符mab{2}c          abbc
{m,n}        匹配前一个字符mn(m<= >=n); mn可以省略         ab{1,2}c        abc abbc
*? +? ?? {m,n}?  使* + ? {m,n}变成非贪婪模式
------------------------------边界匹配------------------------------------------------------
^            匹配字符串开头(在多行模式中匹配每一行的开头)
$            匹配字符串末尾(在多行模式中匹配每一行的末尾)
\A           仅匹配字符串开头                                    这几种匹配模式有点疑惑??????
\Z           仅匹配字符串末尾
\b           匹配\w和\W之间
\B           [^\b]
------------------------------逻辑、分组------------------------------------------------------
|            |代表左右表达式任意匹配一个(类似短路或,先匹配左边)  abc|def          abc def
(...)        被括起来的表达式将作为分组, 从表达式左边开始每遇到  (abc){2}         abcabc
             一个分组的左括号'(',编号+1;分组表达式作为一个整体,  a(123|456)c      a123c a456c
             可以后接数量词.表达式中的|仅在该组中有效
(?P<name>...)分组, 除了原有的编号外再指定一个额外的别名          (?P<id>abc){2}   abcabc
\<number>    引用编号为<number>的分组匹配到的字符串              (\d)abc\1        1abc1 5abc5
(?P=name)    引用别名为<name>的分组匹配到的字符串                (?P<id>\d)abc(?P=id) 1abc1 5abc5
------------------------------特殊构造(不作为分组)---------------------------------------------------
(?:...)      (...)的不分组版本, 用于使用'|'或后接数量词          (?:abc){2}        abcabc
(?iLmsux)    iLmsux的每个字符代表一个匹配模式, 只能用在正则的开头(?i)abc           Abc
(?#...)      #后的内容作为注释被忽略                             abc(?#comment)123 abc123
(?=...)      之后的字符串内容需要匹配表达式才能成功匹配,不消耗字符串内容  a(?=\d)  后面是数字的a
(?!...)      之后的字符串内容需要不匹配表达式才能成功匹配,不消耗字符串内容a(?!\d)  后面不是数字的a
(?<=...)     之前的字符串内容需要匹配表达式才能成功匹配,不消耗字符串内容(?<=\d)a   前面不是数字的a
(?<!...)     之前的字符串内容需要不匹配表达式才能成功匹配,不消耗字符串内容(?<!\d)a 前面不是数字的a

 

 

 

参考:

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

http://www.runoob.com/python/python-reg-expressions.html

http://www.cnblogs.com/PythonHome/archive/2011/11/19/2255459.html

http://www.cnblogs.com/kaituorensheng/p/3489492.html

相关文章
|
9月前
|
存储 人工智能 测试技术
如何使用LangChain的Python库结合DeepSeek进行多轮次对话?
本文介绍如何使用LangChain结合DeepSeek实现多轮对话,测开人员可借此自动生成测试用例,提升自动化测试效率。
2077 125
如何使用LangChain的Python库结合DeepSeek进行多轮次对话?
|
9月前
|
监控 数据可视化 数据挖掘
Python Rich库使用指南:打造更美观的命令行应用
Rich库是Python的终端美化利器,支持彩色文本、智能表格、动态进度条和语法高亮,大幅提升命令行应用的可视化效果与用户体验。
822 0
|
8月前
|
数据可视化 关系型数据库 MySQL
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
本文详解基于Python的电影TOP250数据可视化大屏开发全流程,涵盖爬虫、数据存储、分析及可视化。使用requests+BeautifulSoup爬取数据,pandas存入MySQL,pyecharts实现柱状图、饼图、词云图、散点图等多种图表,并通过Page组件拖拽布局组合成大屏,支持多种主题切换,附完整源码与视频讲解。
787 4
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
|
8月前
|
传感器 运维 前端开发
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。
592 10
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
|
10月前
|
运维 Linux 开发者
Linux系统中使用Python的ping3库进行网络连通性测试
以上步骤展示了如何利用 Python 的 `ping3` 库来检测网络连通性,并且提供了基本错误处理方法以确保程序能够优雅地处理各种意外情形。通过简洁明快、易读易懂、实操性强等特点使得该方法非常适合开发者或系统管理员快速集成至自动化工具链之内进行日常运维任务之需求满足。
651 18
|
10月前
|
数据处理 开发工具 开发者
requirement.txt 管理python包依赖
在 Python 项目中,`requirements.txt` 用于记录依赖库及其版本,便于环境复现。本文介绍了多种生成该文件的方法:基础方法使用 `pip freeze`,进阶方法使用 `pipreqs`,专业方法使用 `poetry` 或 `pipenv`,以及手动维护方式。每种方法适用不同场景,涵盖从简单导出到复杂依赖管理,并提供常见问题的解决方案,帮助开发者高效生成精准的依赖列表,确保项目环境一致性。
2912 4
|
10月前
|
机器学习/深度学习 API 异构计算
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
JAX是Google开发的高性能数值计算库,旨在解决NumPy在现代计算需求下的局限性。它不仅兼容NumPy的API,还引入了自动微分、GPU/TPU加速和即时编译(JIT)等关键功能,显著提升了计算效率。JAX适用于机器学习、科学模拟等需要大规模计算和梯度优化的场景,为Python在高性能计算领域开辟了新路径。
940 0
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
|
10月前
|
存储 监控 安全
Python剪贴板监控实战:clipboard-monitor库的深度解析与扩展应用
本文介绍了基于Python的剪贴板监控技术,结合clipboard-monitor库实现高效、安全的数据追踪。内容涵盖技术选型、核心功能开发、性能优化及实战应用,适用于安全审计、自动化办公等场景,助力提升数据管理效率与安全性。
323 0
|
9月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
1427 102