python爬虫的正则表达式(re模块)

简介: 在python爬取网页的时候可以使用re语法来进行操作,通过import导入的方式

1.findall(返回的是列表)

findall:  匹配字符串中所有的符合正则的内容
lst = re.findall(r"\d+", "我的电话号是:10086 我女朋友的电话是:10010")
print(lst)

2.finditer(返回的是迭代器)

finditer: 匹配字符串中所有的内容[返回的是迭代器], 从迭代器中拿到内容需要.group()
it = re.finditer(r"\d+", "我的电话号是:10086, 我女朋友的电话是:10010")
for i in it:
   print(i.group())

3.search

search, 找到一个结果就返回, 返回的结果是match对象. 拿数据需要.group()
s = re.search(r"\d+", "我的电话号是:10086, 我女朋友的电话是:10010")
print(s.group())

4.预加载正则表达式

obj = re.compile(r"\d+")
ret = obj.finditer("我的电话号是:10086, 我女朋友的电话是:10010")
for it in ret:
   print(it.group())   
ret = obj.findall("呵呵哒, 我就不信你不换我1000000000")
print(ret)
相关文章
|
19天前
|
存储 算法 数据库
使用python hashlib模块给明文字符串加密,以及如何撞库破解密码
`hashlib` 是 Python 中用于实现哈希功能的模块,它可以将任意长度的输入通过哈希算法转换为固定长度的输出,即散列值。该模块主要用于字符串加密,例如将用户名和密码转换为不可逆的散列值存储,从而提高安全性。`hashlib` 提供了多种哈希算法,如 `md5`、`sha1`、`sha256` 等。
32 1
|
7天前
|
Java Serverless Python
探索Python中的并发编程与`concurrent.futures`模块
探索Python中的并发编程与`concurrent.futures`模块
14 4
|
19天前
|
API Python
python ratelimit模块
python ratelimit模块
|
19天前
|
Python
像导入Python模块一样导入ipynb文件
像导入Python模块一样导入ipynb文件
|
20天前
|
Python
如何最简单、通俗地理解Python模块?
如何最简单、通俗地理解Python模块?
|
19天前
|
算法 Python
python tarfile模块
python tarfile模块
|
19天前
|
Python
如何在 Python 中导入模块
【8月更文挑战第29天】
19 1
|
19天前
|
Python
|
19天前
|
数据采集 JSON 算法框架/工具
我常用的几个经典Python模块
我常用的几个经典Python模块
|
20天前
|
存储 JSON 安全
python logging模块
python logging模块