爬虫基础-第六天

简介: 在pycharm写正则,并学习re模块

re模块

re是python自带的不用安装

用法也不难

import re

result = re.findall("a","asdfghqazagchda")
print(result)

返回值为

['a', 'a', 'a', 'a']

又如:

import re

result = re.findall(r"\d+", "你好50万,我是007")
print(result)

返回值为:

['50', '007']

(重点)如果想让其每次纸打印一个数据可以使用迭代的方法.

如:

import re

result = re.finditer(r"\d+", "你好50万,我是007")

for item in result:
    # 从迭代器拿内容
    print(item.group())
# 从结果取数据

于是得到

50

007

另外还有search

import re

result = re.findall(r"\d+", "你好50万,我是007")
print(result)

<re.Match object; span=(2, 4), match='50'>

match 从头匹配,用的很少。

预加载(compile)

提前把正则对象加载完毕

import re

obj = re.compile(r"\d+")
result = re.findall(r"\d+", "你好50万,我是007")
print(result)

得到

['50', '007']
目录
相关文章
|
数据采集
爬虫基础-第二天
本次系列主要记录我学爬虫的一些精髓之处,值得一看。
70 1
|
数据采集 数据安全/隐私保护
爬虫基础-第三天
第三天虽然内容不多,不过需要大量练习,最好自己总结一波
81 0
|
数据采集 C++ Python
爬虫基础--第一天
本次系列主要记录我学爬虫的一些精髓之处,值得一看。
112 0
|
数据采集 API C++
【0基础爬虫】网络基础知识&python基础知识
爬虫是获取网络信息资源的方式之一,我们可以通过爬虫采集到想要的数据,因此爬虫对于我们而言十分重要。本文介绍了爬虫的网络基础知识和python相关包,使得初学者可通过简答的配置学习到网络爬虫相关知识。 本章节讲简单介绍Python相关知识
155 0
|
机器学习/深度学习 数据采集 C++
爬虫基础-第五天
主要是数据解析的基础部分
105 0
|
数据采集 安全 Python
Python初级案例教学,爬虫基础【第三课】
python 提取出所有学生的序号,姓名,成绩 python 敏感词过滤疫苗,疫情 张三的学号是1101,张三的成绩为84.535分 1.通过位置参数 2.通过关键字参数 3.映射-列表 4.映射-字典 5.保留2位小数
244 1
|
数据采集 Web App开发 监控
10分钟教你Python爬虫(上)-- HTML和爬虫基础
10分钟教你Python爬虫(上)-- HTML和爬虫基础
428 0
10分钟教你Python爬虫(上)-- HTML和爬虫基础
|
Python 数据采集 数据挖掘
带你读《Python金融大数据挖掘与分析全流程详解》之二:金融数据挖掘之爬虫技术基础
本书以功能强大且较易上手的Python语言为编程环境,全面讲解了金融数据的获取、处理、分析及结果呈现。全书共16章,内容涉及Python基础知识、网络数据爬虫技术、数据库存取、数据清洗、数据可视化、数据相关性分析、IP代理、浏览器模拟操控、邮件发送、定时任务、文件读写、云端部署、机器学习等,可以实现舆情监控、智能投顾、量化金融、大数据风控、金融反欺诈模型等多种金融应用。
|
Python 数据采集
15、web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表达式 etree.
1036 0
6、web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求
利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode("utf-8")将字节转化成字符串 #!/...
1328 0