python接口自动化(十七)--Json 数据处理---一次爬坑记(详解)

简介: 有些 post 的请求参数是 json 格式的,这个前面发送post 请求里面提到过,需要导入 json模块处理。现在企业公司一般常见的接口因为json数据容易处理,所以绝大多数返回数据也是 json 格式的,我们在做判断时候,往往只需要提取其中几个关键的参数就行,这时候我们就需要 json 来解析返回的数据了。首先来说一下笔者为何要单独写这么一篇,原因是:python 里面 bool 值是 True 和 False,json 里面 bool 值是 true和 false,并且区分大小写,这就尴尬了,明明都是 bool 值。

简介


  

有些 post 的请求参数是 json 格式的,这个前面发送post 请求里面提到过,需要导入 json模块处理。现在企业公司一般常见的接口因为json数据容易处理,所以绝大多数返回数据也是 json 格式的,我们在做判断时候,往往只需要提取其中几个关键的参数就行,这时候我们就需要 json 来解析返回的数据了。首先来说一下笔者为何要单独写这么一篇,原因是:python 里面 bool 值是 True 和 False,json 里面 bool 值是 true和 false,并且区分大小写,这就尴尬了,明明都是 bool 值。


在python里面写的代码,传到json里,不用说肯定识别不了,所以需要把python的代码经过encode后成为 json 可识别的数据类型,反之json数据就需要decode后成为python代码可识别的数据类型。这个也是需要初学者注意,也算是个细微差和

一个坑人的地方吧,如果不注意很容易掉坑里啊。笔者就掉进去过,还好自救能力强,爬出来了,所以为了警醒后来者,就有了这篇随笔。


json 模块简介



1、Json 简介:Json,全名 JavaScript Object Notation,JSON(JavaScript Object Notation(记号、标记)) 是一种轻量级的数据交换格式。它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集。 JSON采用完全独立

于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使JSON成为理想的数据交换语言。JSON易于人阅读和编写,同时也易于机器解析和生成。常用于 http 请求中,接口

返回的数据中。


2、可以用 help(json),查看对应的源码注释内容


1232840-20190411133157487-874557478.png


编码Encode(python->json)



1、为什么要 encode,笔者在开头就给各位小伙伴开门见山的说出来了,让各位带着问题来探索、来学习、来思考


2、举个简单例子,下图的实例中 dict 类型经过 json.dumps()后变成 str,True 变成了 true,False变成了 fasle

1232840-20190416082302709-1179828254.png


3、从json模块的对应源码中可以查看到,python  数据转化成 json可识别的数据,对应的表关系如下


1232840-20190415112953365-1602994067.png


解码 decode(json->python)



1、以博客园的登录成功结果:{"success":True}为例,我们其实最想知道的是 success 这个字段返回的是 True 还是 False,以便于我们对接口进行断言,以下是fiddler抓包博客园登录成功的结果


1232840-20190416085338912-1801480568.png

 

2、如果以 content 字节输出,返回的是一个字符串:{"success":true},这样获取后面那个结果就不方便了,导致断言也不方便


3、如果经过 json 解码后,返回的就是一个字典:{u'success': True},这样获取后面那个结果,就用字典的方式去取值:result2["success"],这样不言而喻断言也就简单方便了


4、由于博客园的登录机制的改变,我们这里接着上一篇的删除随笔的返回结果,给小伙伴们实战演练一下


5、用fiddler抓包,抓到删除新建随笔的请求,从抓包结果可以看出,返回结果是一个字符串:{"isSuccess":True},按照上边的步骤用代码实现


1232840-20190416114809493-773371217.png


6、代码及结果(看到了吧,就是这么轻松被我们取到其value了,接下来就可以进行断言了)


1232840-20190417165233712-1381693182.png


7、从json模块的对应源码中可以查看到, json 数据转化成 python 可识别的数据,对应的表关系如下

1232840-20190415112525536-391469404.png


8、参考代码


# coding:utf-8
 2
 import requests
  # 先打开登录首页,获取部分cookie
  url = "https://passport.cnblogs.com/user/signin"
  headers = {
              "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0"
             }  # get方法其它加个ser-Agent就可以了
  s = requests.session()
  r = s.get(url, headers=headers,verify=False)
 print (s.cookies)
 # 添加登录需要的两个cookie
 c = requests.cookies.RequestsCookieJar()
 c.set('.CNBlogsCookie', 'XXX')  # 填上面抓包内容
 c.set('.Cnblogs.AspNetCore.Cookies','XXX')  # 填上面抓包内容
 c.set('AlwaysCreateItemsAsActive',"True")
 c.set('AdminCookieAlwaysExpandAdvanced',"True")
 s.cookies.update(c)
 print (s.cookies)
 result = r.content
 print(result.decode('utf-8'))
 # 登录成功后保存编辑内容
 url2= "https://i.cnblogs.com/EditPosts.aspx?opt=1"
 body = {"__VIEWSTATE": "",
         "__VIEWSTATEGENERATOR":"FE27D343",
         "Editor$Edit$txbTitle":"这是绕过登录的标题:北京-宏哥",
         "Editor$Edit$EditorBody":"<p>这里是中文内容:http://www.cnblogs.com/duhong/</p>",
         "Editor$Edit$Advanced$ckbPublished":"on",
         "Editor$Edit$Advanced$chkDisplayHomePage":"on",
         "Editor$Edit$Advanced$chkComments":"on",
        "Editor$Edit$Advanced$chkMainSyndication":"on",
         "Editor$Edit$lkbDraft":"存为草稿",
         }
 r2 = s.post(url2, data=body, verify=False)
 print (r.content.decode('utf-8'))
 # 第三步:正则提取需要的参数值
import re
 postid = re.findall(r"postid=(.+?)&", r2.url)
 print(type(postid))
 print (postid) # 这里是 list
  # 提取为字符串
 print (postid[0])
 # 第四步:删除草稿箱
 url3 = "https://i.cnblogs.com/post/delete"
 json3 = {"postId": postid[0]}
 r3 = s.post(url3, json=json3, verify=False)
 result = r3.content #content数据是字节输出
 print(type(result))
 print(result)
 #json是经过加码encode成对应python的数据类型
 result1 = r3.json()
 print (type(result1))
 print(result1['isSuccess'])


小结


  

在实际工作中遇到问题要学会查资料,看其对应的官方文档以及源码,不仅可以起到事半功倍的作用,也可以锻炼自己解决问题的能力。这一点笔者深有体会!!!

相关文章
|
2天前
|
JSON 监控 调度
局域网管理软件的自动化任务调度:Python 中的 APScheduler 库的应用
使用 Python 的 APScheduler 库可简化局域网管理中的自动化任务调度。APScheduler 是一个轻量级定时任务调度库,支持多种触发方式如间隔、时间、日期和 Cron 表达式。示例代码展示了如何创建每 10 秒执行一次的定时任务。在局域网管理场景中,可以利用 APScheduler 定期监控设备状态,当设备离线时自动提交数据到网站,提升管理效率。
14 0
|
3天前
|
机器学习/深度学习 数据可视化 TensorFlow
Python深度学习基于Tensorflow(4)Tensorflow 数据处理和数据可视化
Python深度学习基于Tensorflow(4)Tensorflow 数据处理和数据可视化
11 3
|
4天前
|
存储 JSON 编解码
python之simplejson:JSON 编/解码器示例详解
python之simplejson:JSON 编/解码器示例详解
7 0
|
4天前
|
JSON 数据格式 索引
python之JMESPath:JSON 查询语法库示例详解
python之JMESPath:JSON 查询语法库示例详解
14 0
|
5天前
|
数据采集 数据处理 开发者
Python 中的数据处理技巧:高效数据操作的艺术
Python 在数据处理方面表现卓越,为开发者提供了丰富的工具和库以简化数据操作。在本文中,我们将探讨 Python 中数据处理的一些技巧,包括数据清洗、数据转换以及优化数据操作的最佳实践。通过掌握这些技巧,您可以在 Python 中更加高效地处理和分析数据。
|
6天前
|
监控 PHP Python
1688快速获取整店铺列表 采集接口php Python
在电子商务的浪潮中,1688平台作为中国领先的批发交易平台,为广大商家提供了一个展示和销售商品的广阔舞台;然而,要在众多店铺中脱颖而出,快速获取商品列表并进行有效营销是关键。
|
6天前
|
存储 安全 数据库
自动化密码填充:使用Python提高日常工作效率
自动化密码填充:使用Python提高日常工作效率
13 0
|
6天前
|
SQL 数据库 数据库管理
python自动生成SQL语句自动化
python自动生成SQL语句自动化
23 1
|
7天前
|
持续交付 Python
使用Python实现自动化Web内容巡检
使用Python实现自动化Web内容巡检
19 1
|
12天前
|
机器学习/深度学习 数据采集 算法
【Python机器学习专栏】自动化特征选择与优化的实践
【4月更文挑战第30天】特征选择在机器学习中至关重要,能降低模型复杂度,提高泛化能力和避免过拟合。本文介绍了自动化特征选择的三种方法:过滤法(如SelectKBest)、包装法(如RFE)和嵌入法(如随机森林)。通过结合这些方法,可实现特征优化,包括数据预处理、初步筛选、模型训练与评估、特征优化和结果验证。自动化特征选择能提升模型性能,适应不同数据集和任务需求,为机器学习项目提供坚实基础。

热门文章

最新文章