文档备案控制台

开发者社区问答正文

Beautiful Soup HTML解析

我正在尝试使用 Beautiful Soup 从HTML中的某些类中提取文本。我已经成功获取了文本，但是其中有些异常（无法识别的字符），如下图所示。如何使用python代码解决问题，而不是手动删除这些异常。

码：

    try:
        html =requests.get(url)
    except:
        print("no conection")
    try:
        soup = BS(html.text,'html.parser')
    except:
        print("pasre error")
    print(soup.find('div',{'class':'_3WlLe clearfix'}).get_text())

问题来源：stackoverflow

展开

收起

is大龙 2020-03-23 21:42:20 513 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

is大龙
当您访问html.text时，请求会尝试确定字符编码，以便它可以正确解码从服务器接收到的原始字节。timesofindia发送的content-type头是text / html; charset = iso-8859-1，这是Requests附带的内容。字符编码几乎可以肯定是utf-8。

您可以通过在访问html.text之前将html的encoding设置为utf-8来解决此问题：
```
    try:
        html =requests.get(url)
        html.encoding = 'utf-8'
    except:
        print("no conection")
    try:
        soup = BS(html.text,'html.parser')
    except:
        print("pasre error")
    print(soup.find('div',{'class':'_3WlLe clearfix'}).get_text())
```
或将html.content解码为utf-8，然后将其传递到BS而不是html.text：
```
    try:
        html =requests.get(url)
    except:
        print("no conection")
    try:
        soup = BS(html.content.decode('utf-8'),'html.parser')
    except:
        print("pasre error")
    print(soup.find('div',{'class':'_3WlLe clearfix'}).get_text())
```
我强烈建议您学习字符编码和Unicode。很容易被它绊倒。我们都去过那里。

字符，符号和Unicode奇迹-Tom Scott和Sean Riley撰写的Computerphile

David C. Zentgraf绝对需要每个程序员真正了解与文本一起使用的编码和字符集

每个软件开发人员绝对，肯定必须绝对了解Unicode和字符集（无借口！）作者：Joel Spolsky

回答来源：stackoverflow
2020-03-23 21:42:28

赞同展开评论

问答分类：

Python 云解析DNS

问答标签：

beautifulsoup云解析DNS HTML解析 beautifulsoup HTML解析 html云解析DNS beautifulsoup HTML

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

在阿里云RPA Python 编码如何通过解析HTML 获取表格内容有事例吗？

160

1

0

ModelScope中html的字符串带有双引号，modelscope不能正确解析csv文件怎么办？

208

3

0

fc 原生支持解析html ?我看了website-vuepress 好像只上传编译后的html文件

548

3

0

OCR中我用代码返回了html对象，它看起是网页文件，请问怎么解析它，能把里面的内容读出来呢？

292

1

0

如何实现 renderHTML ，将抓到的 HTML 解析后模拟浏览器的行为进行渲染？

408

1

0

pandas中解析URL、字符串或者HTML文件，抽取其中的tables表格的方法是什么？

643

1

0

spring4.2中如何配置html解析器：报错

1204

1

0

【HPPTDNS】调用单域名的解析接口访问Domain资源提示“UnsignedInterfaceD

1052

1

0

【HPPTDNS】HTTPDNS是否支持解析IPV6域名？

968

1

0

【HPPTDNS】HTTPDNS能解析未备案的域名吗？

897

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

notebook启动安全验证一直失败

vllm部署模型，参数如何指定

请教一下，我4张a6000可以部署什么好点的模型

宜搭如何将流程表单的子表单中选择的人员，加入审批流程？

通义灵码的idea插件，在Mac系统下，idea版本2025.3.1，idea打开通义灵码插件花屏

相关文章

在周末休市期间，通过API接口获取历史数据进行分析

【2026最新】VSCode下载、安装和使用保姆级教程（附安装包+图文步骤）

NPP 苔原：阿拉斯加 Toolik 湖，1982 年，R1

《PyPy超越CPython的核心技术架构解析》

《Python复杂结构静态分析秘籍：递归类型注解的深度实践指南》

还有其他疑问?