UnicodeEncodeErron: ‘gbk‘ codec can‘t encode character ‘ \ue615‘ in position 346139...编码问题解决

简介: 不论使用urllib还是使用requests库经常会遇到中文编码错误的问题,我就经常遇到,因为python安装在windows平台上,cmd的默认编码为GBK,所以在cmd中显示中文时会经常提示gbk编码错误。

不论使用urllib还是使用requests库经常会遇到中文编码错误的问题,我就经常遇到,因为python安装在windows平台上,cmd的默认编码为GBK,所以在cmd中显示中文时会经常提示gbk编码错误。

报错具体内容如下:
在这里插入图片描述
最近一位学弟在写期末爬虫课设的时候,电脑涉及到了UnicodeEncodeErron: 'abk' codec can't encode character ' ue615' in position 346139: illegal multibyte seauence编码报错的问题。这个问题我以前一直没有遇见过,所以也上网帮他查阅了些许资料,最终找到了几种解决方法。
在cmd中我们输出data.read()时,中文乱码,大部分时候是因为print函数,其实print()函数的局限就是Python默认编码的局限,因为系统是win10的,python的默认编码不是'utf-8',改一下python的默认编码成'utf-8'就行了。
第一种解决方法是在上面加入几行代码改变标准输出的默认编码。

import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')

但是使用这种方法后,确实是不报错了,但是却出现了中文乱码的问题,比如说输出的内容都是繁体字。
在这里插入图片描述
这主要是因为该语句修改了python的默认编码为utf8,并赋予了我们的stdout输出,使得python的输出默认编码为utf8,但是当我们在cmd中输出还是中文乱码,这是cmd的锅,cmd不能很好地兼容utf8,而IDLE就可以,甚至在IDLE下运行,连“改变标准输出的默认编码”都不用,因为它默认就是utf8。如果一定要在cmd下运行,那就改一下编码,比如我换成“gb18030”,就能正常显示了:

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码

如果还解决不了的话,尝试第二种解决方法。修改设置里面的File Encodings里面的编码
在这里插入图片描述

如果以上两种方法还是解决不了你的问题,那么就可以尝试最后一种方法,在你的代码上进行修改,加入代码page.encoding='utf-8'
例如初始的代码为:

import io
import sys
from bs4 import BeautifulSoup
import requests

# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

# 例子 http://www.XXX.com/example.html
url = 'http://www.XXX.com/example.html'
page = requests.get(url)
data = BeautifulSoup(page.text, 'lxml')
print(data)

# 知识点:str转bytes叫encode,bytes转str叫decode

那么修改后为:

import io
import sys
from bs4 import BeautifulSoup
import requests

# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

# 例子 http://www.XXX.com/example.html
url = 'http://www.XXX.com/example.html'
page = requests.get(url)
page.encoding='utf-8'
data = BeautifulSoup(page.text, 'lxml')
print(data)


# 知识点:str转bytes叫encode,bytes转str叫decode

编码问题一直是程序员工作和学习的过程中所无法避免的问题,但是遇见这种问题也不用着急焦虑,只要上网查找,总能找到解决办法~

参考:
(1)彻底解决 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xe5‘ in position 13
(2)https://www.douban.com/note/590004720/?_i=5581649634UkTG

相关文章
|
6月前
|
存储 网络协议 网络虚拟化
交换机工作原理(MAC地址表、VLAN)
交换机是局域网中的核心设备,工作在OSI模型的数据链路层,通过MAC地址表和VLAN技术实现高效的数据帧转发与网络隔离。其基本原理包括根据目的MAC地址智能转发数据帧,利用MAC地址学习、老化机制维护地址表。同时,VLAN(虚拟局域网)技术可将网络划分为多个逻辑子网,提供流量隔离、增强安全性和灵活管理等功能。实际应用中,交换机与VLAN广泛用于企业、学校和数据中心等场景,满足不同用户群体的需求并优化网络性能。
598 8
|
9月前
|
搜索推荐 数据挖掘 数据安全/隐私保护
视频号小店达人带货系统开发
视频号小店达人带货系统开发是一个综合性的项目,旨在通过视频号平台为商家和达人提供一个高效、便捷的电商带货解决方案。
|
编解码 Python Windows
Python写入文件报错‘gbk’ codec can’t encode character的解决办法
Python写入文件报错‘gbk’ codec can’t encode character的解决办法
651 2
|
编解码 开发者 Python
【Python】已解决:UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u0157’ in position 1: illegal m
【Python】已解决:UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u0157’ in position 1: illegal m
1046 1
|
算法 JavaScript 前端开发
JavaScript学习 -- SM4算法应用实例
JavaScript学习 -- SM4算法应用实例
811 0
|
存储 数据管理 数据库
理解数据库中的参照完整性
【6月更文挑战第13天】数据库设计旨在创建和维护企业的数据管理系统,确保数据完整性和消除冲突。好的数据库设计应减少冗余,保证信息准确完整,并满足处理和报告需求。设计工具包括E-R图和UML等。
1161 2
理解数据库中的参照完整性
|
弹性计算 数据库
阿里云服务器流量怎么计算的?公网内网出入流量都收费吗?
阿里云服务器内网流量免费,公网入方向流量免费,只有云服务器公网出方向产生的流量才收费
8074 0
阿里云服务器流量怎么计算的?公网内网出入流量都收费吗?
|
机器学习/深度学习 人工智能 算法
【机器学习】大模型训练的深入探讨——Fine-tuning技术阐述与Dify平台介绍
【机器学习】大模型训练的深入探讨——Fine-tuning技术阐述与Dify平台介绍
|
XML JSON 缓存
temu跨境电商按关键字搜索temu商品 API 返回值说明
请求参数:q=shoe&start_price=&end_price=&page=&list_id=&cat=&discount_only=&sort=&page_size=&seller_info=&nick=&ppath=
|
SQL 关系型数据库 MySQL
MySQL - 死锁的产生及解决方案
MySQL - 死锁的产生及解决方案
819 0