开发者社区> 问答> 正文

关于中文网页爬虫显示乱码的问题 乱码错误

大家好,我在爬去一个中文网页的时候碰到了乱码的问题,试了很久都没成功,请帮我看下问题出在哪里? 网址: http://www.duxieren.com/shanghaishuping/201511.shtml 编码: UTF-8 系统: windows 7  Python版本: 3 目标: 爬去文章列表 症状:能爬取,但是print出来之后全乱码,, 也尝试了了加encoding = GBK 之类的参数但是无效, 请帮我看看问题出在哪里,多谢了 代码如下 import requests, bs4 web = requests.get('http://www.duxieren.com/shanghaishuping/') soup = bs4.BeautifulSoup(web.text,"html.parser") page = soup.findAll('a',{'class':'archive_article'}) for i in page:     print(i.get_text())

展开
收起
huc_逆天 2020-05-27 21:24:50 524 0
1 条回答
写回答
取消 提交回答
  • 我们需要将编码改为GBK才可以:

    复制代码 复制代码 import requests

    url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9' r = requests.get(url) r.encoding = 'GBK' print r.text 复制代码 复制代码 这样做,无论你是用pycharm还是命令行去运行,得到的都是正常的中文了。

    2021-02-22 17:50:26
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载