第一步 先导入 request模块 (使用的pycharm)
打开pycharm 光标定位在 file ,点击 选择 settings
进入下面的 界面选择project 下面的 Python interpreter ,然后单击 添加符号
搜索request , 选择导入的request ,点击 install 安装即可。
然后新建一个python 文件
import requests url = "https://www.baidu.com/" #要爬取的地址 r = requests.get(url) # 获取 requests 响应 print(r.status_code) # 看一下自己是否爬取成功 成功 的状态码 200 print(r.headers) #返回很多headers 的信息 print(r.encoding) # 返編碼方式 r.encoding = "utf-8" #设置编码方式 看内容里面的 menta 里面的 charset 英文意思就是说 字符集 print(r.cookies) # 查看网页cookies print(r.text) # 打印爬取到得内容
这个是代码。
第二对request 内的函数(方法)进行简单的认识
1 发送request请求
url :要下载的目标网页的URL
params(英文单词参数的意思): 字典形式, 设置URL后面的参数,
date: 字典或者字符串,一般用于POST方法提交数据
headers: 设置 user-agent, refer等请求头
timeout : 超时时间, 单位为秒。
Verify: True/False,是否进行HTTPS证书验证 默认是,需要自己设置证书地址(http和 https 的区别在于 前者没有后者安全 , 后者有密钥加持,更安全一些,安全的代价也就是响应慢)
Allow_redirects : True/False是否让requests 做重定向处理,默认是
Cooies:附带本地的cookies数据
2 接受 response响应 requests 网页下载库
r = requests.get/post(url)
//查看状态码,如果等于200代表请求成功
r.status_code status 英语意思就是状态的意思 code英文就是代码的意思
//查看编码,以及变更编码
r. encoding ( request 会根据Heders 推出编码 推测不到则设置为 编码ISO-8859-1 如果乱码,需要自己去 看一下自己爬取网站的编码方式,做出修改)
//查看返回网页内容
r. text
//查看返回HTTP的headers (这个就是 header 推测 可以获得编码方式)
r.headers
//查看实际访问的URL
r.url
//以字节的方式返回 内容, 比如用于下载图片
r. content (content 英文意思就是内容的意思)
//服务器端要写入本地的cookies数据
r.cookies
第三对代码进行讲解(四行代码及爬取成功)
第一行为基本导入库
第二行url得意思是:在网页中相当于唯一表示符,和人得身份证差不多。后面得地址就是要爬取得网页(也就是唯一得网址)
第三行 获得服务器给返回的响应,也就是网页内容,并解析。
打印爬取得内容
第四对爬取到的内容进行解释
200 及 爬取成功
编码方式,文本格式,内容类型等等信息。
1 打印默认编码方式 , 2 显示默认编码 3 设置编码方式为utf-8不然会乱码
查看cookies
这个为查看爬到的内容, 及百度一下,后续还需用正则表达式,各种方法对数据进行清洗