开发者社区 问答 正文

关于中文网页爬虫显示乱码的问题 - 爬虫报错

大家好,我在爬去一个中文网页的时候碰到了乱码的问题,试了很久都没成功,请帮我看下问题出在哪里?




网址: http://www.duxieren.com/shanghaishuping/201511.shtml


编码: UTF-8


系统: windows 7 


Python版本: 3


目标: 爬去文章列表


症状:能爬取,但是print出来之后全乱码,, 也尝试了了加encoding = GBK 之类的参数但是无效,


请帮我看看问题出在哪里,多谢了


代码如下


import requests, bs4
web = requests.get('http://www.duxieren.com/shanghaishuping/')
soup = bs4.BeautifulSoup(web.text,"html.parser")
page = soup.findAll('a',{'class':'archive_article'})
for i in page:
    print(i.get_text())


展开
收起
montos 2020-05-29 21:10:04 595 分享 版权
1 条回答
写回答
取消 提交回答
  • use lxml instead of bs4

    2020-05-29 21:10:13
    赞同 展开评论