开发者社区问答正文

关于中文网页爬虫显示乱码的问题乱码错误

大家好，我在爬去一个中文网页的时候碰到了乱码的问题，试了很久都没成功，请帮我看下问题出在哪里？网址： http://www.duxieren.com/shanghaishuping/201511.shtml 编码: UTF-8 系统: windows 7 Python版本： 3 目标：爬去文章列表症状：能爬取，但是print出来之后全乱码,，也尝试了了加encoding = GBK 之类的参数但是无效，请帮我看看问题出在哪里，多谢了代码如下 import requests, bs4 web = requests.get('http://www.duxieren.com/shanghaishuping/') soup = bs4.BeautifulSoup(web.text,"html.parser") page = soup.findAll('a',{'class':'archive_article'}) for i in page: print(i.get_text())

展开

收起

huc_逆天 2020-05-27 21:24:50 595 版权

1 条回答

写回答

取消提交回答

游客2q7uranxketok

我们需要将编码改为GBK才可以：

复制代码复制代码 import requests

url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9' r = requests.get(url) r.encoding = 'GBK' print r.text 复制代码复制代码这样做，无论你是用pycharm还是命令行去运行，得到的都是正常的中文了。

2021-02-22 17:50:26

赞同展开评论

问答分类：

数据采集

问答标签：

爬虫乱码

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

关于中文网页爬虫显示乱码的问题 乱码错误

相关文章

关于中文网页爬虫显示乱码的问题乱码错误