Xpath的使用

简介: 简单使用

Xpath即是XML路径语言,用来在XML文档中查询信息,也适用于HTML文档的搜索。

Xpath概览

Xpath的选择功能十分强大,它提供了非常简介明了的路径选择表达式,用于字符串,数字,时间的匹配。

Xpath常用规则

nodename 选取此节点的所有子节点
/ 从当前结点选取直接结点
// 从当前结点选取子孙结点
@ 选取属性
列举一个Xpath的一个常用匹配规则, 如//title[@lang='eng'],代表着所有名称为title,同时属性为lang的值的eng的结点。

Xpath的安装

简单安装pip3 install lxml

基本使用

from lxml import etree
text="""


  • """

    导入lxml的etree模块,声明一段HTML文本,接着调用类进行初始化,成功构造出一个Xpath解析对象,且

    HTML文本中的最后一个li结点是没有闭合的,而etree模块则可以自动修正HTML文本。

    之后调用tostring方法既可以输出修正过后的HTML文本,但是结果为bytes类型,需要用decode方法来对其进行

    转化成str类型

    html=etree.HTML(text)

    result=etree.tostring(html)
    print(result.decode('utf-8'))

    所有结点

    html=etree.parse('test.html',etree.HTMLParser())
    result=html.xpath('//*')
    print(result)

相关文章
|
10月前
|
SQL 分布式计算 数据库
ApacheHudi使用问题汇总(二)
ApacheHudi使用问题汇总(二)
145 0
|
机器学习/深度学习 人工智能 文字识别
超全干货分享:什么是RPA?
7月28日,阿里云RPA4.0版本重磅发布,为企业数字化转型提供高效、安全、可靠的服务。RPA是一款软件机器人,能够模拟人的行为完成软件的交互,能够解决跨系统、跨平台,重复有规律的工作流程。时至今日,阿里云RPA已被超过50万各行各业的用户采用,可以跟踪到的执行总次数已突破120亿次,用户使用RPA获得了3-10倍的效率提升
11389 0
超全干货分享:什么是RPA?
|
XML Java 数据库连接
parameterType是必须写的吗?
xml中没有配置parameterType,但是这是正确的,因为mybatis能自动识别,但返回值类型不能不写,因为mybatis需要将获得结果封装到相应的类中,查询的字段与类的属性需要一致。
471 0
parameterType是必须写的吗?
|
算法
PAT条条大路通罗马
Indeed there are many different tourist routes from our city to Rome. You are supposed to find your clients the route with the least cost while gaining the most happiness.
147 0
|
Web App开发
XPathHelper使用
XPathHelper使用
191 0
|
Linux
packetdrill
packetdrill工具安装
283 0
packetdrill
|
Oracle Java 关系型数据库
对JPA的理解以及使用
JPA是Java Persistence API的缩写,是Java的一个规范。它用于Java对象和关系数据库之间保存数据。 JPA充当面向对象的领域模型和关系数据库系统之间的桥梁。由于JPA只是一种规范,本身没有任务操作,故需要一个实现。 使用JPA可以对数据库进行非常方便的开发,在如今很多一体化开发项目中表现优秀。
509 0
|
Kubernetes 网络协议 应用服务中间件
k8s的HPA
实现pod的自动伸缩
542 0