几行代码实现爬虫

简介: 使用 Pycharm , 导入 一步 一部导入 request模块 ,几行代码实现爬虫,并对reques模块爬虫基本方法进行解释,方便以后复习

第一步 先导入 request模块  (使用的pycharm)

1.png

打开pycharm 光标定位在 file ,点击  选择 settings image.png

进入下面的 界面image.png选择project  下面的 Python interpreter  ,然后单击 添加符号

image.png

搜索request , 选择导入的request  ,点击 install 安装即可。


然后新建一个python 文件

image.png

import requests
url = "https://www.baidu.com/"  #要爬取的地址
r = requests.get(url)  # 获取 requests 响应
print(r.status_code)   # 看一下自己是否爬取成功  成功 的状态码 200
print(r.headers)   #返回很多headers 的信息
print(r.encoding)   # 返編碼方式
r.encoding = "utf-8"  #设置编码方式  看内容里面的 menta 里面的  charset 英文意思就是说 字符集
print(r.cookies)  # 查看网页cookies
print(r.text)  # 打印爬取到得内容

这个是代码。


第二对request 内的函数(方法)进行简单的认识

1 发送request请求

 

url :要下载的目标网页的URL

params(英文单词参数的意思): 字典形式, 设置URL后面的参数,

date: 字典或者字符串,一般用于POST方法提交数据

headers: 设置 user-agent, refer等请求头

timeout : 超时时间, 单位为秒。

Verify: True/False,是否进行HTTPS证书验证 默认是,需要自己设置证书地址(httphttps 的区别在于 前者没有后者安全 , 后者有密钥加持,更安全一些,安全的代价也就是响应慢)

Allow_redirects : True/False是否让requests 做重定向处理,默认是

Cooies:附带本地的cookies数据

 

 

2 接受 response响应   requests 网页下载库

r = requests.get/post(url)

//查看状态码,如果等于200代表请求成功

r.status_code   status 英语意思就是状态的意思   code英文就是代码的意思

//查看编码,以及变更编码

r. encoding ( request 会根据Heders 推出编码 推测不到则设置为  编码ISO-8859-1  如果乱码,需要自己去 看一下自己爬取网站的编码方式,做出修改)

//查看返回网页内容

r. text

//查看返回HTTPheaders   (这个就是 header 推测  可以获得编码方式)

r.headers

//查看实际访问的URL

r.url

//以字节的方式返回 内容, 比如用于下载图片

r. content (content 英文意思就是内容的意思)

//服务器端要写入本地的cookies数据

r.cookies

第三对代码进行讲解(四行代码及爬取成功)


image.png

第一行为基本导入库

image.png

第二行url得意思是:在网页中相当于唯一表示符,和人得身份证差不多。后面得地址就是要爬取得网页(也就是唯一得网址)

image.png

第三行 获得服务器给返回的响应,也就是网页内容,并解析。

image.png

打印爬取得内容


第四对爬取到的内容进行解释


image.png


200 及 爬取成功


image.png


编码方式,文本格式,内容类型等等信息。

image.png

1 打印默认编码方式 , 2 显示默认编码  3 设置编码方式为utf-8不然会乱码


image.png


查看cookies


image.png


这个为查看爬到的内容, 及百度一下,后续还需用正则表达式,各种方法对数据进行清洗

相关文章
|
6月前
|
数据采集 JavaScript 前端开发
爬虫逆向操作
安装PyExecJS和Node.js环境,使用Python通过PyExecJS调用JavaScript代码。微信公众号平台案例中,通过抓包分析找到密码加密函数,使用js改写工具修改后保存为weixin.js。利用PyExecJS的execjs.get()、compile()和eval()方法执行加密函数,获取加密后的密码数据。示例代码展示了如何调用weixin.js中的getPwd函数。
44 1
|
6月前
|
存储 前端开发 JavaScript
网站运行原理与代码实现
网站运行原理与代码实现
138 1
|
6月前
|
数据采集 存储 JSON
如何使用Python实现网站的爬虫功能?
使用Python进行网站爬虫涉及选择Scrapy、BeautifulSoup等框架,理解目标网站结构,发送HTTP请求(requests库),解析HTML(BeautifulSoup),提取并处理数据,同时处理异常如验证码和IP限制。遵守法律、道德规范和网站规则,尊重“robots.txt”指示,确保爬虫行为合法且不给网站带来负担。实际项目可能需考虑分布式、数据去重等复杂技术。
65 4
50行代码实现网站服务器3
50行代码实现网站服务器3
74 0
|
移动开发 算法 Java
50行代码实现网站服务器 2
50行代码实现网站服务器 2
83 0
|
数据采集 Python
|
数据采集 存储 分布式计算
爬虫识别-爬虫判断思路| 学习笔记
快速学习爬虫识别-爬虫判断思路
爬虫识别-爬虫判断思路| 学习笔记
|
数据采集 NoSQL 大数据
爬虫识别-爬虫识别代码实现顺序介绍|学习笔记
快速学习爬虫识别-爬虫识别代码实现顺序介绍
爬虫识别-爬虫识别代码实现顺序介绍|学习笔记
|
数据采集 编解码 Python
爬虫练习题(一)
爬虫练习题实战
371 0
爬虫练习题(一)
|
数据采集 算法 大数据
爬虫识别-指标碰撞-代码实现总结| 学习笔记
快速学习爬虫识别-指标碰撞-代码实现总结