UnicodeEncodeErron: ‘gbk‘ codec can‘t encode character ‘ \ue615‘ in position 346139...编码问题解决

简介: 不论使用urllib还是使用requests库经常会遇到中文编码错误的问题,我就经常遇到,因为python安装在windows平台上,cmd的默认编码为GBK,所以在cmd中显示中文时会经常提示gbk编码错误。

不论使用urllib还是使用requests库经常会遇到中文编码错误的问题,我就经常遇到,因为python安装在windows平台上,cmd的默认编码为GBK,所以在cmd中显示中文时会经常提示gbk编码错误。

报错具体内容如下:
在这里插入图片描述
最近一位学弟在写期末爬虫课设的时候,电脑涉及到了UnicodeEncodeErron: 'abk' codec can't encode character ' ue615' in position 346139: illegal multibyte seauence编码报错的问题。这个问题我以前一直没有遇见过,所以也上网帮他查阅了些许资料,最终找到了几种解决方法。
在cmd中我们输出data.read()时,中文乱码,大部分时候是因为print函数,其实print()函数的局限就是Python默认编码的局限,因为系统是win10的,python的默认编码不是'utf-8',改一下python的默认编码成'utf-8'就行了。
第一种解决方法是在上面加入几行代码改变标准输出的默认编码。

import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')

但是使用这种方法后,确实是不报错了,但是却出现了中文乱码的问题,比如说输出的内容都是繁体字。
在这里插入图片描述
这主要是因为该语句修改了python的默认编码为utf8,并赋予了我们的stdout输出,使得python的输出默认编码为utf8,但是当我们在cmd中输出还是中文乱码,这是cmd的锅,cmd不能很好地兼容utf8,而IDLE就可以,甚至在IDLE下运行,连“改变标准输出的默认编码”都不用,因为它默认就是utf8。如果一定要在cmd下运行,那就改一下编码,比如我换成“gb18030”,就能正常显示了:

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码

如果还解决不了的话,尝试第二种解决方法。修改设置里面的File Encodings里面的编码
在这里插入图片描述

如果以上两种方法还是解决不了你的问题,那么就可以尝试最后一种方法,在你的代码上进行修改,加入代码page.encoding='utf-8'
例如初始的代码为:

import io
import sys
from bs4 import BeautifulSoup
import requests

# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

# 例子 http://www.XXX.com/example.html
url = 'http://www.XXX.com/example.html'
page = requests.get(url)
data = BeautifulSoup(page.text, 'lxml')
print(data)

# 知识点:str转bytes叫encode,bytes转str叫decode

那么修改后为:

import io
import sys
from bs4 import BeautifulSoup
import requests

# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

# 例子 http://www.XXX.com/example.html
url = 'http://www.XXX.com/example.html'
page = requests.get(url)
page.encoding='utf-8'
data = BeautifulSoup(page.text, 'lxml')
print(data)


# 知识点:str转bytes叫encode,bytes转str叫decode

编码问题一直是程序员工作和学习的过程中所无法避免的问题,但是遇见这种问题也不用着急焦虑,只要上网查找,总能找到解决办法~

参考:
(1)彻底解决 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xe5‘ in position 13
(2)https://www.douban.com/note/590004720/?_i=5581649634UkTG

相关文章
|
4月前
|
编解码
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xe9 in position 3114: invalid continuation byte
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xe9 in position 3114: invalid continuation byte
|
编解码 Python
pandas - read_csv报错:‘utf-8‘/‘gbk‘ codec can‘t decode byte 0xb1 in position 0:invalid start byte
pandas - read_csv报错:‘utf-8‘/‘gbk‘ codec can‘t decode byte 0xb1 in position 0:invalid start byte
367 0
成功解决UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 130: invalid continuation b
成功解决UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 130: invalid continuation b
成功解决UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 130: invalid continuation b
|
编解码 Python
问题解决:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xcf in position 0: invalid continuation by
问题解决:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xcf in position 0: invalid continuation by
3631 0
问题解决:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xcf in position 0: invalid continuation by
|
编解码 固态存储 Python
ssd [Error] UnicodeDecodeError: 'gbk' codec can't decode byte 0x81 in position【已解决】
ssd [Error] UnicodeDecodeError: 'gbk' codec can't decode byte 0x81 in position【已解决】
378 0
ssd [Error] UnicodeDecodeError: 'gbk' codec can't decode byte 0x81 in position【已解决】
|
编解码
UnicodeEncodeError: 'latin-1' codec can't encode characters in position报错问题
UnicodeEncodeError: 'latin-1' codec can't encode characters in position报错问题
1194 1
|
编解码 Python Windows
pip安装报错:UnicodeDecodeError 'utf-8' codec can't decode byte 0xc3 in position 4
pip安装报错:UnicodeDecodeError 'utf-8' codec can't decode byte 0xc3 in position 4
559 2
|
编解码 Python
UnicodeEncodeError: 'ascii' codec can't encode characters
UnicodeEncodeError: 'ascii' codec can't encode characters
168 0
|
编解码 JSON 数据格式
Python常见问题 - requests请求参数包含中文报错:UnicodeEncodeError: 'latin-1' codec can't encode characters in position 13-14: 小明 is not valid Latin-1. Use body.encode('utf-8')
Python常见问题 - requests请求参数包含中文报错:UnicodeEncodeError: 'latin-1' codec can't encode characters in position 13-14: 小明 is not valid Latin-1. Use body.encode('utf-8')
1915 0
|
机器学习/深度学习 编解码 Python
成功解决Python3版UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0x90 in position 614: ordinal not in
成功解决Python3版UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0x90 in position 614: ordinal not in
成功解决Python3版UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0x90 in position 614: ordinal not in