背景
Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言,由于其简单的语法、强大的工具库等优势被很多人青睐,应用于各个行业之中。
准备
安装 Python 解释器/anaconda。
安装 jupyter lab。
新建 notebook(python3)文件。
已导入re模块。
匹配数字
# 匹配文本中的所有数字
str_ = "996.ICU 指工作 996、生病 ICU,也就是工作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,
生病了就住进 ICU"
num1 = re.findall(r'\d+', str_) # 使用\d 匹配数字,+表示匹配多次
print(num1)
num2 = re.findall(r'[0-9]{1,3}', str_) # 正则表达式不唯一,可以使用[]指定匹配元素的范围
{}指定次数
print(num2)
输出:
['996', '996', '9', '9', '6']
['996', '996', '9', '9', '6']
匹配字符
使用\w 可以匹配数字字母下划线:
str_ = "996.ICU 指工作 996、生病 ICU,也就是工作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,
生病了就住进 ICU"
s1 = re.findall(r'\w+', str_)
s1
输出:
['996', 'ICU 指工作 996', '生病 ICU', '也就是工作从早上 9 点上班到晚上 9 点下班', '每周工作 6天', '生病了就住进 ICU']
使用\S 匹配任意非空字符:
s2 = re.findall(r'\S+', str_)
s2
输出:
['996.ICU 指工作 996、生病 ICU,也就是工作从早上 9 点上班到晚上 9 点下班,每周工作 6 天,生病了就住进 ICU']
只匹配英文字母:
#在文本中匹配英文
s3 = re.search(r'[A-Za-z]+', str_).group()
print(s3)
输出:
ICU
匹配任意的非数字字符\D:
s4
输出:
['.ICU 指工作', '、生病 ICU,也就是工作从早上', '点上班到晚上', '点下班,每周工作', '天,生病了就住进 ICU']
只匹配中文:
匹配文本中的所有汉字
s5 = re.findall(r'[\u4e00-\u9fa5]{1,}', str_)
print(s5)
输出:
['指工作', '生病', '也就是工作从早上', '点上班到晚上', '点下班', '每周工作', '天', '生病了就住进']
\u4e00 和\u9fa5 两个 unicode 值正好是 Unicode 表中的汉字的头和尾。
匹配符号
# 匹配文本中的所有符号
s6 = re.findall(r'\W+', str_)
print(s6)
输出:
['.', '、', ',', ',', ',']
应用
步骤 1 匹配文本信息中的邮箱信息
匹配文本中的邮箱
str_ = "我的邮箱是 python996@icu.com"
s = re.findall(r'[A-Za-z0-9]+@[A-Za-z0-9]+\.com', str_)
print(s)
输出:
['python996@icu.com']
匹配网址 URL
str__ = "我的个人主页:https://www.python.org"
s = re.findall(r'[a-zA-z]+://[^\s]*', str__)
print(s)
输出:
['https://www.python.org']
匹配身份证号码
str__ = "我的身份证号码是 12345678901234567X"
s = re.findall(r'(\d{6})(\d{4})(\d{2})(\d{2})(\d{3})([0-9]|X)', str__)
print(s)
print(''.join(s[0]))
输出:
[('123456', '7890', '12', '34', '567', 'X')]
12345678901234567X
匹配手机号码
str__ = "我的手机号是 13012345678"
s = re.findall(r'\d{3}\d{8}|\d{4}\{7,8}', str__)
print(s)
输出:
['13012345678']
贪婪模式下的匹配
html = "aa<div>test1</div>bb<div>test2</div>cc "
res = re.search("<div>.*</div>",html)
print(res.group())
输出:
非贪婪模式下的匹配
html = "aa<div>test1</div>bb<div>test2</div>cc "
res = re.search("<div>.*?</div>",html)
print(res.group())
输出: