几行代码实现爬虫

2022-12-18 270

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 使用 Pycharm , 导入一步一部导入 request模块，几行代码实现爬虫，并对reques模块爬虫基本方法进行解释，方便以后复习

第一步先导入 request模块（使用的pycharm）

打开pycharm 光标定位在 file ，点击选择 settings

进入下面的界面选择project 下面的 Python interpreter ,然后单击添加符号

搜索request , 选择导入的request ，点击 install 安装即可。

然后新建一个python 文件

import requests
url = "https://www.baidu.com/"  #要爬取的地址
r = requests.get(url)  # 获取 requests 响应
print(r.status_code)   # 看一下自己是否爬取成功  成功 的状态码 200
print(r.headers)   #返回很多headers 的信息
print(r.encoding)   # 返編碼方式
r.encoding = "utf-8"  #设置编码方式  看内容里面的 menta 里面的  charset 英文意思就是说 字符集
print(r.cookies)  # 查看网页cookies
print(r.text)  # 打印爬取到得内容

这个是代码。

第二对request 内的函数（方法）进行简单的认识

1 发送request请求

url :要下载的目标网页的URL

params（英文单词参数的意思）: 字典形式，设置URL后面的参数，

date: 字典或者字符串，一般用于POST方法提交数据

headers: 设置 user-agent, refer等请求头

timeout : 超时时间，单位为秒。

Verify: True/False,是否进行HTTPS证书验证默认是，需要自己设置证书地址（http和 https 的区别在于前者没有后者安全，后者有密钥加持，更安全一些，安全的代价也就是响应慢）

Allow_redirects : True/False是否让requests 做重定向处理，默认是

Cooies：附带本地的cookies数据

2 接受 response响应 requests 网页下载库

r = requests.get/post(url)

//查看状态码，如果等于200代表请求成功

r.status_code status 英语意思就是状态的意思 code英文就是代码的意思

//查看编码，以及变更编码

r. encoding ( request 会根据Heders 推出编码推测不到则设置为编码ISO-8859-1 如果乱码，需要自己去看一下自己爬取网站的编码方式，做出修改)

//查看返回网页内容

r. text

//查看返回HTTP的headers （这个就是 header 推测可以获得编码方式）

r.headers

//查看实际访问的URL

r.url

//以字节的方式返回内容，比如用于下载图片

r. content (content 英文意思就是内容的意思)

//服务器端要写入本地的cookies数据

r.cookies

第三对代码进行讲解（四行代码及爬取成功）

第一行为基本导入库

第二行url得意思是：在网页中相当于唯一表示符，和人得身份证差不多。后面得地址就是要爬取得网页(也就是唯一得网址)

第三行获得服务器给返回的响应，也就是网页内容，并解析。

打印爬取得内容

第四对爬取到的内容进行解释

200 及爬取成功

编码方式，文本格式，内容类型等等信息。

1 打印默认编码方式， 2 显示默认编码 3 设置编码方式为utf-8不然会乱码

查看cookies

这个为查看爬到的内容，及百度一下，后续还需用正则表达式，各种方法对数据进行清洗

几行代码实现爬虫

第一步先导入 request模块（使用的pycharm）

第二对request 内的函数（方法）进行简单的认识

1 发送request请求

2 接受 response响应 requests 网页下载库

第三对代码进行讲解（四行代码及爬取成功）

第四对爬取到的内容进行解释

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

几行代码实现爬虫

第一步 先导入 request模块 （使用的pycharm）

第二对request 内的函数（方法）进行简单的认识

1 发送request请求

2 接受 response响应 requests 网页下载库

第三对代码进行讲解（四行代码及爬取成功）

第四对爬取到的内容进行解释

热门文章

最新文章

相关电子书

第一步先导入 request模块（使用的pycharm）