开发者社区> 问答> 正文

python3.4.3 抓取网页的时候,网页中有一个乱码字符串,抓取出?报错

我的

@突然帅了 你好,想跟你请教个问题:

我的是抓取网页遇到问题了:
python3.4.3
本来把网页转成utf-8没有问题,可是网页当中有一个一乱码,
  徐�*****     结果一下子就报错了
:'utf-8' codec can't decode byte 0xe5 in position 10615: invalid continuation byte

我的代码:

result =  urllib.request.urlopen(url).read()  result == result.decode("utf-8")
如果没有第二行的话,不报错,但是结果是乱码

我搜了一下网页资料,看到你的文章了,但是还没有解决
求解一下

展开
收起
爱吃鱼的程序员 2020-06-12 15:29:31 464 0
1 条回答
写回答
取消 提交回答
  • https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

    这是因为在一个页面使用了不同的编码造成的。处理方法:1,直接过滤掉会乱码的部分然后解码。

    2,对此部分使用不同的解码方式(不知道可以用chardet库检测),然后在连接起来。

    2020-06-12 15:29:47
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
From Python Scikit-Learn to Sc 立即下载
Data Pre-Processing in Python: 立即下载
双剑合璧-Python和大数据计算平台的结合 立即下载