UnicodeEncodeErron: ‘gbk‘ codec can‘t encode character ‘ \ue615‘ in position 346139...编码问题解决

简介: 不论使用urllib还是使用requests库经常会遇到中文编码错误的问题,我就经常遇到,因为python安装在windows平台上,cmd的默认编码为GBK,所以在cmd中显示中文时会经常提示gbk编码错误。

不论使用urllib还是使用requests库经常会遇到中文编码错误的问题,我就经常遇到,因为python安装在windows平台上,cmd的默认编码为GBK,所以在cmd中显示中文时会经常提示gbk编码错误。

报错具体内容如下:
在这里插入图片描述
最近一位学弟在写期末爬虫课设的时候,电脑涉及到了UnicodeEncodeErron: 'abk' codec can't encode character ' ue615' in position 346139: illegal multibyte seauence编码报错的问题。这个问题我以前一直没有遇见过,所以也上网帮他查阅了些许资料,最终找到了几种解决方法。
在cmd中我们输出data.read()时,中文乱码,大部分时候是因为print函数,其实print()函数的局限就是Python默认编码的局限,因为系统是win10的,python的默认编码不是'utf-8',改一下python的默认编码成'utf-8'就行了。
第一种解决方法是在上面加入几行代码改变标准输出的默认编码。

import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')

但是使用这种方法后,确实是不报错了,但是却出现了中文乱码的问题,比如说输出的内容都是繁体字。
在这里插入图片描述
这主要是因为该语句修改了python的默认编码为utf8,并赋予了我们的stdout输出,使得python的输出默认编码为utf8,但是当我们在cmd中输出还是中文乱码,这是cmd的锅,cmd不能很好地兼容utf8,而IDLE就可以,甚至在IDLE下运行,连“改变标准输出的默认编码”都不用,因为它默认就是utf8。如果一定要在cmd下运行,那就改一下编码,比如我换成“gb18030”,就能正常显示了:

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码

如果还解决不了的话,尝试第二种解决方法。修改设置里面的File Encodings里面的编码
在这里插入图片描述

如果以上两种方法还是解决不了你的问题,那么就可以尝试最后一种方法,在你的代码上进行修改,加入代码page.encoding='utf-8'
例如初始的代码为:

import io
import sys
from bs4 import BeautifulSoup
import requests

# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

# 例子 http://www.XXX.com/example.html
url = 'http://www.XXX.com/example.html'
page = requests.get(url)
data = BeautifulSoup(page.text, 'lxml')
print(data)

# 知识点:str转bytes叫encode,bytes转str叫decode

那么修改后为:

import io
import sys
from bs4 import BeautifulSoup
import requests

# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

# 例子 http://www.XXX.com/example.html
url = 'http://www.XXX.com/example.html'
page = requests.get(url)
page.encoding='utf-8'
data = BeautifulSoup(page.text, 'lxml')
print(data)


# 知识点:str转bytes叫encode,bytes转str叫decode

编码问题一直是程序员工作和学习的过程中所无法避免的问题,但是遇见这种问题也不用着急焦虑,只要上网查找,总能找到解决办法~

参考:
(1)彻底解决 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xe5‘ in position 13
(2)https://www.douban.com/note/590004720/?_i=5581649634UkTG

相关文章
|
SQL Oracle 关系型数据库
FastAPI数据库系列(一) MySQL数据库操作 一、简介
FastAPI中你可以使用任何关系型数据库,可以通过SQLAlchemy将其轻松的适应于任何的数据库,比如: PostgreSQL MySQL SQLite Oracle Microsoft SQL Server ...
|
JavaScript
vue elementUI select下拉框设置默认值
vue elementUI select下拉框设置默认值
2397 0
|
C++ Windows
(1)Qt的基本数据类型以及基本输出
这篇文章介绍了Qt框架中的基本数据类型和日志输出方法,包括如何使用QDebug类及其相关函数进行调试和日志记录,以及如何取消输出时的空格和字符串引号,还提供了抑制输出的两种方式。
593 4
(1)Qt的基本数据类型以及基本输出
|
编解码 Python Windows
Python写入文件报错‘gbk’ codec can’t encode character的解决办法
Python写入文件报错‘gbk’ codec can’t encode character的解决办法
1116 2
|
编解码 开发者 Python
【Python】已解决:UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u0157’ in position 1: illegal m
【Python】已解决:UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u0157’ in position 1: illegal m
1675 1
|
存储 Linux Windows
LabVIEW 使用VISA Close真的关闭COM口了吗
LabVIEW 使用VISA Close真的关闭COM口了吗
406 1
|
编解码 IDE 开发工具
python ini文件包含中文时报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x8c 的解决办法
python ini文件包含中文时报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x8c 的解决办法
1272 1
|
XML 前端开发 小程序
PDF转Word完全指南:3大方法满足各种场景!
还不知道PDF怎么转Word吗,本文将提供完整的PDF转Word方案,包括离线、在线或者SDK API等各种方式,总有一款满足您的需求。
1290 0
ACQ.ACCESS_FORBIDDEN自查方案-支付宝接口常见错误系列
报错原因  1.正式环境下,没有签约或者签约过期等原因导致的失效  2.正式环境下,第三方应用授权方式调用接口,做授权商户有没有签约,是否签约已经失效  3.沙箱环境,没有该产品的使用权限,如果是,请在该帖下面留下您的沙箱APPID+接口英文名  自查方案流程     第一步:       1.
11162 13
下一篇
开通oss服务