爬虫基础--第一天

简介: 本次系列主要记录我学爬虫的一些精髓之处,值得一看。

爬虫概述

从网页应用爬取信息,并据为己有

python相对于其他语言有很多库,更加有优势

爬虫不能爬取敏感信息,也不能短时间快速爬取造成服务器宕机,应在合法的情况下爬取。

工具

python

pycharm

or

anaconda,jupyter

vs code

…….

第一个爬虫

from urllib.request import urlopen

url = "http://www.zacarx.com"
resp = urlopen(url)
print(resp.read().decode("utf-8"))

image-20221218141513355

当然,当我们想保存文件到当前目录可以写入

from urllib.request import urlopen

url = "http://www.zacarx.com"
resp = urlopen(url)
# print(resp.read().decode("utf-8"))
with open("Zacrx.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))

这样我们就得到了一个保存到本地的网页

目录
相关文章
|
数据采集
爬虫基础-第二天
本次系列主要记录我学爬虫的一些精髓之处,值得一看。
58 1
|
数据采集 Python
爬虫基础-第六天
在pycharm写正则,并学习re模块
74 1
|
数据采集 数据安全/隐私保护
爬虫基础-第三天
第三天虽然内容不多,不过需要大量练习,最好自己总结一波
64 0
|
数据采集 API C++
【0基础爬虫】网络基础知识&python基础知识
爬虫是获取网络信息资源的方式之一,我们可以通过爬虫采集到想要的数据,因此爬虫对于我们而言十分重要。本文介绍了爬虫的网络基础知识和python相关包,使得初学者可通过简答的配置学习到网络爬虫相关知识。 本章节讲简单介绍Python相关知识
131 0
|
机器学习/深度学习 数据采集 C++
爬虫基础-第五天
主要是数据解析的基础部分
85 0
|
数据采集 安全 Python
Python初级案例教学,爬虫基础【第三课】
python 提取出所有学生的序号,姓名,成绩 python 敏感词过滤疫苗,疫情 张三的学号是1101,张三的成绩为84.535分 1.通过位置参数 2.通过关键字参数 3.映射-列表 4.映射-字典 5.保留2位小数
214 1
|
数据采集 Web App开发 监控
10分钟教你Python爬虫(上)-- HTML和爬虫基础
10分钟教你Python爬虫(上)-- HTML和爬虫基础
349 0
10分钟教你Python爬虫(上)-- HTML和爬虫基础
|
Python 数据采集 数据挖掘
带你读《Python金融大数据挖掘与分析全流程详解》之二:金融数据挖掘之爬虫技术基础
本书以功能强大且较易上手的Python语言为编程环境,全面讲解了金融数据的获取、处理、分析及结果呈现。全书共16章,内容涉及Python基础知识、网络数据爬虫技术、数据库存取、数据清洗、数据可视化、数据相关性分析、IP代理、浏览器模拟操控、邮件发送、定时任务、文件读写、云端部署、机器学习等,可以实现舆情监控、智能投顾、量化金融、大数据风控、金融反欺诈模型等多种金融应用。
|
Python 数据采集
15、web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表达式 etree.
996 0
6、web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求
利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode("utf-8")将字节转化成字符串 #!/...
1303 0