今天碰到一个很有意思的问题,需要将普通的 Unicode字符串转换为 Unicode编码的字符串,
如下:
将 \u9500\u552e 转化为 \u9500\u552e 也就是销售两个字。
乍一看感觉挺简单的,用 re 库将前面的反斜杠去掉即可,但是在替换的过程中会抛出如下错误:
Traceback (most recent call last):
File "<pyshell#15>", line 1, in
re.sub(r"(\)\u", r'', t)
File "D:\Python36\lib\re.py", line 191, in sub
return _compile(pattern, flags).sub(repl, string, count)
File "D:\Python36\lib\re.py", line 301, in _compile
p = sre_compile.compile(pattern, flags)
File "D:\Python36\lib\sre_compile.py", line 562, in compile
p = sre_parse.parse(p, flags)
File "D:\Python36\lib\sre_parse.py", line 855, in parse
p = _parse_sub(source, pattern, flags & SRE_FLAG_VERBOSE, 0)
File "D:\Python36\lib\sre_parse.py", line 416, in _parse_sub
not nested and not items))
File "D:\Python36\lib\sre_parse.py", line 765, in _parse
p = _parse_sub(source, state, sub_verbose, nested + 1)
File "D:\Python36\lib\sre_parse.py", line 416, in _parse_sub
not nested and not items))
File "D:\Python36\lib\sre_parse.py", line 502, in _parse
code = _escape(source, this, state)
File "D:\Python36\lib\sre_parse.py", line 362, in _escape
raise source.error("incomplete escape %s" % escape, len(escape))
sre_constants.error: incomplete escape \u at position 3
大概意思就是去掉前面的反写杠之后剩下的 \u 不能组成完整的字符。
到这里问题好像有点难以解决了,这时候我们会放弃吗?当然不会。
于是我到谷歌上搜了一下,发现还真有人碰到过这个问题,解决方法也是十分的巧妙。
竟然还可以使用 json 库的 loads 方法 ...
解决方法如下:
import json
s = '\\u9500\\u552e'
print(json.loads(f'"{s}"'))
另外:python3 将字符串unicode转换为中文
得到的文本打印出来是“\uxxxx”的字符串格式,在python3中使用text.decode('unicode_escape')会报错:‘str' object has no attribute 'decode'
正确的姿势是:
text.encode('utf-8').decode("unicode_escape")
还有一个就是在爬取网站时,最终得到的是list内容,编码为unicode,想让其转换为汉字并输出。
需要提取的为下图中unicode部分:
保存为列表,然后使用for循环:
text为获取的网页。
pat = '"group": {"text": "(.*?)"'
text_list = re.compile(pat).findall(text)
for i in text_list:
print(i.encode('latin-1').decode('unicode_escape'))
输出结果: