Python 编程 | 连载 24 - 正则表达式

简介: Python 编程 | 连载 24 - 正则表达式

一、正则表达式

认识正则表达式

正则表达式是一个特殊的字符序列,便于检查字符串是否与某种模式匹配,正则表达式也是对字符串的处理,通过定义一个规则,使得从字符串中匹配出符合规则的字符串,正则表达式可以:

  • 判断一个字符串是否符合规则,如手机号邮箱判断等
  • 取出指定数据
  • 匹配指定格式的信息

正则表达式通用性强,可适用于很多编程语言。

正则表达式匹配字符

正则表达式匹配字符串需要的条件:

  • re模块
  • 匹配规则
  • 匹配范围,既从哪个字符串中尽心匹配

正则表达式中的特殊字符:

特殊字符 描述
\d 匹配任何十进制的数字,与[0-9]一致
\D 匹配任意非数字
\w 匹配任何字母数字下划线字符
\W 匹非字母数字以及下划线
\s 匹配任何空格字符,与[\n\t\r\v\f]相同
\S 匹配任意非空字符
\A 匹配字符串的起始
\Z 匹配字符串的结束I
. 匹配任何字符,除\n之外
import re
data = 'I am Thor Odinson, 1500 years old'
print('匹配到的数字为:{}'.format(re.findall('\d', data)))
print('匹配到的空格为:{}'.format(re.findall('\s', data)))
print('匹配到的字符为:{}'.format(re.findall('\w', data)))
print('匹配起始字符串:{}'.format(re.findall('\AI am', data)))
print('匹配末尾字符串:{}'.format(re.findall('old\Z', data)))
print('匹配任何字符:{}'.format(re.findall('.', data)))
复制代码

84904e5ca8394d7fbde68fecb7b36404_tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.png

使用正则表达式定义函数,操作字符串。

import re
def contain_num(data):
    res = re.findall('\d', data)
    if len(res) > 0:
        return True
    return False
def delete_num(data):
    # 匹配出非数字
    res = re.findall('\D', data)
    return ''.join(res)
if __name__ == '__main__':
    data = '95 Anzan Hwy, Ashforad SA 5035 Adelaide'
    contain = contain_num(data)
    print(contain)
    _data = delete_num(data)
    print(_data)
复制代码

image.png

使用正则表达式实现 startwith 函数和 endwith 函数

import re
def starts_with(start, data):
    # 构造正则表达式
    _start = '\A%s' % start
    res = re.findall(_start, data)
    if len(res) > 0:
        return True
    return False
def ends_with(end, data):
    _end = '{}\Z'.format(end)
    res = re.findall(_end, data)
    if len(res) > 0:
        return True
    return False
if __name__ == '__main__':
    data = '13 Ramel Way, Pakenham VIC'
    res_01 = starts_with('13', data)
    res_02 = starts_with('afeae', data)
    res_03 = ends_with('VIC', data)
    print(res_01)
    print(res_02)
    print(res_03)
复制代码

image.png

二、正则表达式的量词与组

正则表达式中的符号:

  • |:或的意思,re1|re2表示匹配表达式1或者表达式2
  • ^:匹配字符串的开头
  • $:匹配字符串的结尾
  • *:匹配0次或者多次前面出现的正则表达式
  • +:匹配1次或者多次前面出现的正则表达式
  • {N}:匹配N次前面出现的正则表达式
  • {M,N}:匹配M~N次前面出现的正则表达式
  • [...]:匹配来自字符集的任意单一字符
  • [x-y]:匹配x~y范围内的单一字符
  • [^..]:不匹配此字符集中出现的任何一个字符,包括某一范围内的字符
  • \:将特殊字符转义

正则表达式中()表示在匹配规则中获取指定的数据。贪婪与贪婪,0或者多次属于贪婪模式,可以通过?组合变成非贪婪模式。

三、正则表达式模块

正则表达式模块的常用方法有:

方法 描述
findall(pattern, string[,flags]) 查找字符串中所有非重复出现的正则表达式模式,返回一个列表
search(pattern, string, flags=0) 使用可选标记搜索字符串中第一次出现的正则表达式模式,如果匹配成功返回匹配对象,否则返回None
group(num) 返回整个匹配对象,或者编号为num的特定子组
groups() 返回一个包含所有匹配子组的元素,如果没有成功匹配,返回一个空元祖
split(pattern, string, max=0) 根据正则表达式的模式分隔符,split函数可以将字符串分割为列表,然后返回成功匹配的列表,分割最多操作max次
match(pattern, string, flags=0) 尝试使用带有可选标记的正则表达式的模式来匹配字符串,匹配成功返回匹配对象,否则返回None
complie(pattern, flags=0) 定义一个匹配规则的对象
import re
def identity(url):
    re_obj = re.compile('[a-zA-Z]{4,5}://\w*.*\w+.\w+')
    print(re_obj)
    res = re_obj.findall(url)
    if len(res) != 0:
        return True
    return False
def get_url(url):
    re_obj = re.compile('[https://|http://](\w*.*\w+.\w+)')
    res = re_obj.findall(url)
    if len(res) != 0:
        return res[0]
    else:
        return False
def get_email(email):
    re_obj = re.compile('.+@.+.[a-zA-Z]+')
    res = re_obj.findall(email)
    return res
def get_html_data(data):
    re_obj = re.compile('style="(.*?)"')
    res = re_obj.findall(data)
    return res
def get_all_data_html(data):
    re_obj = re.compile('="(.+?)"')
    res = re_obj.findall(data)
    return res
if __name__ == '__main__':
    result = identity('http://www.baidu.com/')
    print(result)
    result = get_url('https://www.baidu.com/')
    print(result)
    result = get_email('thor@asgard.com')
    print(result)
    html = ('<div class="s-top-nav" style="display:none;">'
        '</div><div class="s-center-box"></div>')
    result = get_html_data(html)
    print(result)
    result = get_all_data_html(html)
    print(result)
    re_g = re.compile(('<div class="(.*?)" style="(.*?)">'
                       '</div><div class="(.*?)"></div>'))
    result = re_g.search(html)
    print(result.groups())
    print(result.group(1))
    print(result.group(2))
    print(result.group(3))
    # print(result.group(4))
    re_g = re.compile('\s')
    result = re_g.split(html)
    print(result)
    re_g = re.compile('<div class="(.*?)"')
    result = re_g.match(html)
    print(result.span())
    print(html[: 22])
复制代码

image.png


相关文章
|
2月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
2月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
2月前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
126 80
|
23天前
|
存储 缓存 Java
Python高性能编程:五种核心优化技术的原理与Python代码
Python在高性能应用场景中常因执行速度不及C、C++等编译型语言而受质疑,但通过合理利用标准库的优化特性,如`__slots__`机制、列表推导式、`@lru_cache`装饰器和生成器等,可以显著提升代码效率。本文详细介绍了这些实用的性能优化技术,帮助开发者在不牺牲代码质量的前提下提高程序性能。实验数据表明,这些优化方法能在内存使用和计算效率方面带来显著改进,适用于大规模数据处理、递归计算等场景。
58 5
Python高性能编程:五种核心优化技术的原理与Python代码
|
2月前
|
Python
[oeasy]python055_python编程_容易出现的问题_函数名的重新赋值_print_int
本文介绍了Python编程中容易出现的问题,特别是函数名、类名和模块名的重新赋值。通过具体示例展示了将内建函数(如`print`、`int`、`max`)或模块名(如`os`)重新赋值为其他类型后,会导致原有功能失效。例如,将`print`赋值为整数后,无法再用其输出内容;将`int`赋值为整数后,无法再进行类型转换。重新赋值后,这些名称失去了原有的功能,可能导致程序错误。总结指出,已有的函数名、类名和模块名不适合覆盖赋新值,否则会失去原有功能。如果需要使用类似的变量名,建议采用其他命名方式以避免冲突。
52 14
|
2月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
116 2
|
2月前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
65 10
|
2月前
|
IDE 程序员 开发工具
Python编程入门:打造你的第一个程序
迈出编程的第一步,就像在未知的海洋中航行。本文是你启航的指南针,带你了解Python这门语言的魅力所在,并手把手教你构建第一个属于自己的程序。从安装环境到编写代码,我们将一步步走过这段旅程。准备好了吗?让我们开始吧!
|
2月前
|
关系型数据库 开发者 Python
Python编程中的面向对象设计原则####
在本文中,我们将探讨Python编程中的面向对象设计原则。面向对象编程(OOP)是一种通过使用“对象”和“类”的概念来组织代码的方法。我们将介绍SOLID原则,包括单一职责原则、开放/封闭原则、里氏替换原则、接口隔离原则和依赖倒置原则。这些原则有助于提高代码的可读性、可维护性和可扩展性。 ####
|
2月前
|
人工智能 数据挖掘 开发者
探索Python编程之美:从基础到进阶
本文是一篇深入浅出的Python编程指南,旨在帮助初学者理解Python编程的核心概念,并引导他们逐步掌握更高级的技术。文章不仅涵盖了Python的基础语法,还深入探讨了面向对象编程、函数式编程等高级主题。通过丰富的代码示例和实践项目,读者将能够巩固所学知识,提升编程技能。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考和启示。让我们一起踏上Python编程的美妙旅程吧!

热门文章

最新文章

推荐镜像

更多