文档备案控制台

开发者社区数据库文章正文

lxml xpath 爬取并正常显示中文内容

2017-12-05 1827

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

在使用python爬虫提取中文网页的内容，为了能正确显示中文的内容，在转为字符串时一定要声明编码为utf-8，否则无法正常显示中文，而是显示原编码的字符，并没有正确转换。比如下面这个简单的爬取百度页面的title的示例：

import os
import lxml
from urllib2 import urlopen # Mac
# from urllib.request import Request, urlopen # Win
from lxml import etree

hfile = urlopen('http://www.baidu.com').read()
tree = etree.HTML(hfile)
strs = tree.xpath( "//title")
strs = strs[0]
# strs = (etree.tostring(strs)) # 不能正常显示中文
strs = (etree.tostring(strs, encoding = "utf-8", pretty_print = True, method = "html")) # 可以正常显示中文
print (strs)

如果不在tostring函数中正确配置的话，会打印出：

<title>&#30334;&#24230;&#19968;&#19979;&#65292;&#20320;&#23601;&#30693;&#36947;</title>

而正确的应该是：

<title>百度一下，你就知道</title>

本文转自博客园Grandyang的博客，原文链接：lxml xpath 爬取并正常显示中文内容

，如需转载请自行联系原博主。

文章标签：

Python

数据采集

分布式数据库

李博 bluemind

目录

相关文章

开发者说

|

索引存储数据库

数据库设计规范

基于阿里数据库设计规范扩展而来

开发者说

50662 4 19

阿甘兄

|

Kubernetes 容器 Perl

k8s配置hosts域名的几种方式

k8s配置hosts域名的几种方式

阿甘兄

3004 0 0

天落色

|

数据采集存储监控

大数据的数据来源 - 数据采集的方式（数据接入的方式）

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。下面主要介绍下大数据采集

天落色

7017 0 0

vnjohn

|

SQL 存储监控

MySQL 内置的监控工具介绍及使用篇（一）

MySQL 内置的监控工具介绍及使用篇

vnjohn

2998 0 0

尹正杰

|

Linux Docker Windows

Docker配置https证书案例

本文介绍了如何为Docker的Harbor服务配置HTTPS证书，包括安装Docker和Harbor、修改配置文件以使用证书、生成自签名证书、配置证书以及验证配置的步骤。

尹正杰

1299 3 3

Docker配置https证书案例

风吹落叶花飘荡

|

Python

Python 代码从 `.env` 文件中读取环境变量

这篇文章介绍了如何在Python项目中使用`python-dotenv`库从`.env`文件读取环境变量的详细步骤，包括安装库、创建`.env`文件、在代码中加载和读取环境变量。

风吹落叶花飘荡

3626 0 0

No8g攻城狮

|

安全 Linux 网络安全

【工具使用】几款优秀的SSH连接客户端软件工具推荐FinalShell、Xshell、MobaXterm、OpenSSH、PUTTY、Terminus、mRemoteNG、Terminals等

【工具使用】几款优秀的SSH连接客户端软件工具推荐FinalShell、Xshell、MobaXterm、OpenSSH、PUTTY、Terminus、mRemoteNG、Terminals等

No8g攻城狮

132663 0 4

nanshaws

|

PyTorch 算法框架/工具 Python

yolov5的完整部署（适合新人和懒人，一键安装）

这篇文章为新人和希望简化部署过程的用户介绍了如何一键安装和配置YOLOv5环境，包括安装Anaconda、设置镜像源、安装PyCharm、创建虚拟环境、下载YOLOv5项目、安装依赖以及在PyCharm中配置和运行项目。

nanshaws

8064 0 0

yolov5的完整部署（适合新人和懒人，一键安装）

lhyxcxy

|

数据库连接数据库关系型数据库

ETL工具 kettle

Kettle简介：Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettl

lhyxcxy

10056 1 1

1761360321912488

|

机器学习/深度学习人工智能前端开发

AI计算机视觉笔记三：WEB端部署YOLOv5

本文档介绍了如何将YOLOv5目标检测模型部署到Web端的方法，包括基于Flask和Streamlit两种实现方案。首先创建Python虚拟环境并安装必要的依赖库。接着详细展示了Flask方案下的前端HTML页面与后端Python逻辑代码，该方案利用Flask框架搭建服务器，处理实时视频流，并显示检测结果。随后介绍了Streamlit方案，该方案更简洁直观，适合快速开发交互式的机器学习应用。通过`streamlit run`命令即可启动应用，支持图像、视频及实时摄像头的目标检测演示。两种部署方式各有优势，Flask灵活性高，适用于复杂项目；而Streamlit则易于上手，便于快速原型设计。

1761360321912488

1926 0 0

热门文章

最新文章

SLS机器学习最佳实战：时序异常检测和报警

[simulink] --- simulink模块（一）

一文看懂 kafka 机制

代理IP故障排查技巧汇总及实战经验分享

python怎么赚钱？一文说尽用Python赚钱的五种方法！

机器学习（五）聚类之图像分割

自建Hadoop迁移MaxCompute

Java线程池详解及常用方法

操作系统存储管理和oracle数据库(第二篇)

你人脉网中应该有的10种人

deepseek给的分页方案

ConvertX:一站式自托管在线文件转换平台,支持上千种格式

不懂向量数据库？别怕！一文讲清8大主流工具，手把手教你做选择

Claude Code 30k+ star官方插件，小白也能写专业级代码

GPU 集群资源利用率过高？从异常 ECS 实例排查到清理全实操

风电不再“听天由命”：聊聊 AI 是怎么提前“预判”风机生病的

别再手点云控制台了：用 Crossplane，把云资源也纳入 GitOps 管理

别再迷信“参数越大越牛了”，大模型真正的分水岭，其实在数据准备

阿里云新老用户优惠券最新领取及使用教程

阿里云无影 GPU 云电脑（NVIDIA RTX 5880）价格及测评

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

附部署代码｜云数据库RDS 全托管 Supabase服务：小白轻松搞定开发AI应用