【一日一技】破译反斜杠数量问题的密码

简介: 【一日一技】破译反斜杠数量问题的密码

“大家在开发Python的过程中,一定会遇到很多反斜杠的问题,很多人被反斜杠的数量搞得头大。这期我们就来介绍一下如何处理这些让人头疼的反斜杠。”


首先我们写一段非常简单的Python代码,它的作用是把一个字段先转换为JSON格式的字符串,然后把这个字符串再转换为JSON格式的字符串:

import json


info = {'name': 'kingname', 'address': '杭州', 'salary': 99999}

info_json = json.dumps(info)


# 第一次转换以后,打印出来

print(info_json)


info_json_json = json.dumps(info_json)


# 第二次转换以后,再打印出来

print(info_json_json)



运行效果图

第一次:

字典转成JSON格式的字符串,只有中文杭州变成了Unicode编码\u676d\u5dde,其余地方没有出现反斜杠。

在Python里面,反斜杠不能单独出现,这里\u676d\u5dde中的两个反斜杠,实际上应该是\u。表示这两个编码是Unicode编码。


接下来:

把第一次生成的JSON字符串:{"name": "kingname", "address": "\u676d\u5dde", "salary": 99999}再一次转成JSON格式的字符串。

"{\"name\": \"kingname\", \"address\": \"\\u676d\\u5dde\", \"salary\": 99999}"

效果图


为什么突然出现了这么多反斜杠?

这是因为,JSON格式的字符串本身是使用双引号来表示字符串的。如果原来的字符串里面本身就有双引号,那就会导致混淆。此时,Python需要把原来字符串的双引号变成普通的字符,失去双引号的作用。因此使用\"让双引号变成普通的字符。

这就相当于在Python中,可以这样定义一个包含双引号的字符串:

>>> a = "跟我说:\"你好\""

>>> print(a)

跟我说:"你好"

这里,你好两侧的双引号都加上了反斜杠,让它成为普通的字符,防止它们提前与最外层的双引号配对。

如果不加反斜杠,就会导致字符串里面的双引号提前与外层的双引号配对,引起语法错误:

>>> b = "跟我说:"你好""

 File "<stdin>", line 1

   b = "跟我说:"你好""

              ^

SyntaxError: invalid syntax

在这里,"跟我说:"成为了一个字符串,末尾的""成为了一个空字符串。那么中间的你好就变成了一个没有定义的变量。而Python里面,是不存在字符串未定义的变量字符串这种写法的,所以会报语法错误。

而JSON格式的字符串,本质上也是字符串,所以自然而然也需要遵循这样的规则。因此,字符串原来自带的双引号左侧就被加上了反斜杠。



原来的\u676d\u5dde为什么变成了\\u676d\\u5dde

这是因为,当第二次执行json.dumps的时候,传入的参数是一个JSON格式的字符串,本质就是字符串。而一个字符串里面如果自带反斜杠,那么JSON在对他再次转换的时候,需要标记这是一个普通的字符串形式的反斜杠,不是一个有特殊意义的反斜杠,所以使用\\表示一个普通的反斜杠。


好了,那么你可以猜一下,如果把info_json_jsonjson.dumps一下会怎么样?

会变成:

"\"{\\\"name\\\": \\\"kingname\\\", \\\"address\\\": \\\"\\\\u676d\\\\u5dde\\\", \\\"salary\\\": 99999}\""



为什么出现了三个反斜杠连用和四个反斜杠连用的问题?

实际上非常简单,当你对info_json_json执行json.dumps的时候,Python是怎么转换的?

我们来看:

"{\"name\": \"kingname\", \"address\": \"\\u676d\\u5dde\", \"salary\": 99999}"


字符串执行json.dumps的时候,记住一个关键方法——从左到右,一个字符一个字符的转换。

1. 第一个字符是双引号,所以变成\"

2. 第二个字符是{,不是特殊符号,保留

3. 第三个字符是\,把它变成\\

4. 第四个字符是",把它变成\"

5. ……

全部执行完成了,由于这次转换是把一个字符串转换为JSON格式的字符串,所以最外侧加上双引号。

于是就得到了:

"\"{\\\"name\\\": \\\"kingname\\\", \\\"address\\\": \\\"\\\\u676d\\\\u5dde\\\", \\\"salary\\\": 99999}\""



我们在爬虫开发过程中,可能会遇到上面这种经过多次JSON转换后的字符串。

此时,千万不要轻易使用字符串的.replace方法把多个反斜杠替换为空或者把两个反斜杠替换为一个反斜杠。那样做只会导致你的数据更难解析。

正确的做法应该是尝试对数据一层一层使用json.loads,把它一层一层h,还原到最初的{'name': 'kingname', 'address': '杭州', 'salary': 99999}这种简单形式。

提问环节

好了,今天的介绍就到这里,最后留一个思考题

还是上面的代码,现在把PyCharm的调试模式打开,然后数一数info_jsoninfo_json_json里面反斜杠的个数。

如图所示

目录
相关文章
|
2月前
|
前端开发 JavaScript 安全
前端JS实现密码校验键盘横竖、26字母、相同字母、相同数字、密码包含用户名、数字 字母不能连续 不能相同三个、不能横向 竖向 连续三个 包含字符、不能有中文符号
该 JavaScript 代码实现了一个严格的密码校验功能,确保密码满足多种安全要求,包括长度、字符类型、不包含中文及特殊字符、不与用户名相似等。通过多个辅助函数,如 `validateFormat` 检查密码格式,`isHasChinaCharFun` 检测中文符号,`getCharAll` 生成键盘组合,以及 `checkPasswordFun` 综合验证密码的有效性和安全性。此工具对于提高用户账户的安全性非常有用。
87 0
|
数据安全/隐私保护
正则表达式--密码复杂度验证--必须包含大写、小写、数字、特殊字符中的至少三项
正则表达式--密码复杂度验证--必须包含大写、小写、数字、特殊字符中的至少三项
869 0
|
7月前
|
存储 弹性计算 运维
生成随机密码(字串截取版本)
【4月更文挑战第29天】
39 0
|
7月前
|
存储 弹性计算 运维
生成随机密码(字串截取版本)
【4月更文挑战第29天】
35 0
|
Shell SDN 数据安全/隐私保护
创建10个用户,并分别设置密码,密码要求10位且包含大小写字母以及数字,最后需要把每个用户的密码存在指定文件中
创建10个用户,并分别设置密码,密码要求10位且包含大小写字母以及数字,最后需要把每个用户的密码存在指定文件中
122 1
c遇回车空格需谨慎--再记忆
为什么说再记忆呢...因为以前发过对scanf的探究.. [button href="https://dyedd.cn/730.html"]历史[/button] 对于字符来说,这样的输入不需要空格!
37 0
|
数据安全/隐私保护
希尔密码(Hill)
希尔密码(Hill)
142 0
凯撒?替换?呵呵!
凯撒?替换?呵呵!
205 0
凯撒?替换?呵呵!
|
安全 算法 Java
密码转换的算法解析(简单密码)
HashMap在java编程中是非常方便对于我们赋值取值
密码转换的算法解析(简单密码)
|
数据安全/隐私保护
凯撒密码 (20 分)
凯撒密码 (20 分)
374 0