超级牛逼的Python库，漂亮的打印，爬虫爱好者最喜欢！-阿里云开发者社区

超级牛逼的Python库，漂亮的打印，爬虫爱好者最喜欢！

2022-06-07 153

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 超级牛逼的Python库，漂亮的打印，爬虫爱好者最喜欢！

遇到的问题

在学习爬虫的时候，大家肯定碰到过返回的结果是json字符串格式的数据。

对于这种数据我们通常使用的是json模块，将json字符串，转化为字典格式的数据，然后采用 “键值对” 方式，获取我们想要的数据。

但是存在一个问题：

往往网页获取到的json数据转化为字典后，嵌套太多，一层接着一层，看起来一团糟的感觉，往往不知道哪个节点是哪个节点的下一级。

今天我们就是告诉大家一个好用的Python库——pprint，这可算是一个超实用的爬虫技巧，大家赶紧拿出你的小本本，记录下来。

引入案例

下面我们以爬取腾讯新闻为例，看看最终爬取下来的是个什么玩意儿。

import requests
import json
china_url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url = china_url,headers = headers).json()
print(type(response))
print(response)

结果如下：

我们利用json()方法，直接将json字符串，转换为了dict格式的数据。扫描一下数据，我的妈！一大堆，我该怎么解析？

pprint模块的妙用

那么，有没有一种好的办法，能够快速帮助我们理清字典嵌套之间的关系呢？pprint模块是一个很好的选择。

这是一个第三方库，在使用之前，我们需要pip安装。

pip install pprint

安装后，直接导入即可。

from pprint import pprint

接着，对于上述案例，我们使用pprint()函数，打印一下，看看会有什么好的效果呢？

from pprint import pprint
pprint(data)

结果如下：

从图中可以看出，这个嵌套关系，一目了然，清清楚楚，明明白白，这样应该很好解析了吧。

下面在用一个简单的案例，带大家感受一下。

dic = { 'main': {'temp': 44, 'feels_like': 40.42, 'temp_min': 44, 
'temp_max': 44, 'pressure': 1002, 'humidity': 11}, 
'visibility': 6000, 'wind': {'speed': 4.1, 'deg': 290, 
'gust': 9.3}, 'clouds': {'all': 30}, 'dt': 1590398990, 
'sys': {'type': 1, 'id': 9165, 'country': 'IN', 
'sunrise': 1590364538, 'sunset': 1590414050}, 
'timezone': 19800, 'id': 1273294, 'name': 'Delhi', 
'cod': 200}

有这样一个嵌套字典，如果想要获sys标签下面的id数据，应该怎么办呢？

pprint(dic)

结果如下：

对于上面这个数据，我想大家应该没问题了吧，如果想要获取sys标签下的id数据，你应该知道怎么做吧？

dic['sys']['id']

结果如下：

网页源代码的结果，基本是一致的，因此你清楚了这中结构关系，只需要一个for循环，就可以很简单的拿到你想要的数据。

好了，今天的讲解就到这里，后面带大家讲述一下本文开头提到的json数据。

超级牛逼的Python库，漂亮的打印，爬虫爱好者最喜欢！

遇到的问题

引入案例

pprint模块的妙用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

超级牛逼的Python库，漂亮的打印，爬虫爱好者最喜欢！

遇到的问题

引入案例

pprint模块的妙用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像