备案控制台

开发者社区问答正文

Python3 爬html编码问题?报错

我使用的是BeautifulSoup+urllib 环境：Python3.5.2

该网站使用UTF-8编码

百度、谷歌上的方法我都试过了，但是还都是乱码：X{Oã8ÿ€ý>tÓeW®ÉªŽp ÁÑ£eÙNÜÄi

相关代码如下

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import urllib.request
import urllib
import io  
import sys  
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='UTF-8')  

def get_token(requrl,header):
    req = urllib.request.Request(url=requrl,headers=header)
    
    response = urllib.request.urlopen(req)
    print(type(response))
    
    print (response.getcode()) 
    
    the_page = response.read()
    
    print(len(the_page))
    
    soup = BeautifulSoup(the_page,"html.parser",from_encoding="iso-8859-15")
    
    print(soup.prettify())
    
    
    
    user_token = soup.form.input.input.input.input["value"] #get the user_token
    return user_token


user_token = get_token(requrl,header)

测试了很久，觉得问题主要就是出现在 the_page = response.read() 这里，read()返回一个bytes类，然后这个东西只能用iso-8859-15解码才不报错，但是试了很多办法，依旧输出的乱码，求解

这个回答很有参考意义，和我情况很像，但是按他的方法还是不对https://www.oschina.net/question/1012422_145865

哪位大表哥帮帮我~~~

展开

收起

爱吃鱼的程序员 2020-06-08 17:25:26 490 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

网页源码标识了utf-8,应该按照utf-8解码吧

2020-06-08 17:25:44

赞同展开评论

问答分类：

Python

问答标签：

Python报错 Python html Python编码 HTML编码 HTML报错

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

在使用阿里语音AI的情况下，有谁知道python的base64编码和c#有啥不一样吗？

205

4

0

在阿里函数计算怎么在一个python文件下部署多个html呢？

126

0

0

在阿里云RPA Python 编码如何通过解析HTML 获取表格内容有事例吗？

152

1

0

Python Os模块在阿里云RPA基础编码工程里面没有吗？

161

1

0

求助，运行环境 Python 3.9 报错，有什么处理思路... { "errorMessa

1772

1

0

麻烦看下这个问题，客户的版本是2.9.7，运行python报错odps找不到，这个版本不是自动获取实

838

1

0

我在使用了Python的测试代码运行报错

570

1

0

flask程序引入numpy包報錯python版本3.9（本地3.9.8）， flask版本2.0.

1068

1

0

python3节点调用阿里云sdk提示模块未找到报错，请问下这是什么原因，路径问题吗？

835

1

0

自定义python processor 通过 urlopen 方式调用 oss存储的文件报错 <

1195

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

相关文章

Python装饰器：给你的函数穿上“外套”

Python装饰器：优雅的代码增强术

Python装饰器：代码的魔法外衣

Python装饰器：让代码优雅如诗

Wispr Flow 平替, 这款开源中文语音助手，程序员真该试试,本地离线的中文语音输入神器来了（开源白嫖版）

还有其他疑问?