Python Xpath解析 数据提取 使用介绍&常用示例

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: Python Xpath解析 数据提取 使用介绍&常用示例前言一、from lxml import etree1.pip install lxml2.xpath用法介绍2.1 选取节点2.1 路径表达式结合元素介绍3.代码示例4.Xpath Helper (免费 Chrome 插件)总结

Python Xpath解析 数据提取 使用介绍&常用示例

一、from lxml import etree

1.pip install lxml

2.xpath用法介绍

2.1 选取节点

2.1 路径表达式结合元素介绍

3.代码示例

4.Xpath Helper (免费 Chrome 插件)

总结

前言

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历,XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。


提示:以下是本篇文章正文内容,下面案例可供参考

一、from lxml import etree

1.pip install lxml

pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

2.xpath用法介绍

2.1 选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
下面列出了常用的路径表达式:

表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 不考虑起始位置,在整个文档中全局匹配符合表达式的节点。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。

2.1 路径表达式结合元素介绍

路径表达式以及表达式的含义

表达式 描述
bookstore 选取 bookstore 元素的所有子节点。
bookstore/book 选取 bookstore下面(子元素中)的所有 book 元素
//book 选取所有的book元素,在整个文档中全局匹配符合表达式的节点。
bookstore//book 选取bookstore下面(子元素中)所有的book元素
//@lang 选取名为 lang 的所有属性。
/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<5] 选取属于 bookstore 下面(子元素中)的前四个 book 元素。
//title[@lang] 选取所有属性名为 lang 的 title 元素。
//title[@class='content'] 选取所有属性名为 class并且值="content"的 title 元素。
/bookstore/book[price>35.00] 选取 bookstore 元素下的所有 book 元素,且其中的 price 元素的值须大于 35.00。
* 匹配任何元素节点。
@* 匹配任何属性节点。
node() 匹配任何类型的节点。
/bookstore/* 选取 bookstore 元素的所有子元素。
//* 选取文档中的所有元素。
//title[@*] 选取所有带有属性的 title 元素。
//title I //price 选取文档中的所有 title 和 price 元素。
//div[contains(@class,"a")] 选取所有class值包含a的div元素
//div[contains(@class,"a") and contains(@class,"b")] 选取所有class值包含a和b的div元素
//input[@type='submit' and @name='fuck'] 选取文档中所有属性type值="submit"且属性name值='fuck' 的input元素。
//input[@type='submit' or @name='fuck'] 选取文档中所有属性type值="submit"或属性name值='fuck' 的input元素。

3.代码示例

    import requests
    from lxml import etree
    url = 'xxxx'
    # Python Request get post 代理 常用示例:https://blog.csdn.net/EXIxiaozhou/article/details/127015235?spm=1001.2014.3001.5502
    response = requests.get(url=url)
    web_html = response.text
    selects = etree.HTML(web_html)  # 解析网页源码
    selects.xpath("//input[@type='submit']/text()")  # 获取input元素的文本
    selects.xpath("//input[@type='submit']/@title")  # 获取input元素的title属性值
    li_tag = selects.xpath("//ul[@class='xxx']/li[1]")  # 获取ul元素下的第一个li元素
    li_list = selects.xpath("//ul[@class='xxx']/li")  # 获取ul元素下的所有个li元素,返回list类型
    for li in li_list:
        # 将返回的xpath对象转为html源代码
        li_tag_html = etree.tostring(li, encoding='utf-8', pretty_print=True, method='html').decode("utf-8")
        li.xpath("text()")  # 获取当前li元素的文本

4.Xpath Helper (免费 Chrome 插件)

Xpath Helper 国内下载地址: https://chrome.zzzmh.cn/info?token=hgimnogjllphhhkhlmebbmlgjoejdpjl
Xpath Helper 安装教程: https://blog.csdn.net/qq_54528857/article/details/122202572
Xpath Helper 补充:插件中的xpath表达式和代码中的表达式,语法上是一致的 在这里插入图片描述

总结

以上就是今天要讲的内容,本文仅仅简单介绍了xpath解析web源码的使用,而xpath提供了大量能使我们快速便捷地处理数据的函数和方法,后续有关于xpath的常用代码会在这篇博客中持续更新。
XPath官方手册中文版:https://www.cnblogs.com/armlinux/archive/2006/12/05/2391049.html

目录
相关文章
|
22天前
|
算法 Python
Python 大神修炼手册:图的深度优先&广度优先遍历,深入骨髓的解析
在 Python 编程中,掌握图的深度优先遍历(DFS)和广度优先遍历(BFS)是进阶的关键。这两种算法不仅理论重要,还能解决实际问题。本文介绍了图的基本概念、邻接表表示方法,并给出了 DFS 和 BFS 的 Python 实现代码示例,帮助读者深入理解并应用这些算法。
30 2
|
23天前
|
存储 分布式计算 Java
存算分离与计算向数据移动:深度解析与Java实现
【11月更文挑战第10天】随着大数据时代的到来,数据量的激增给传统的数据处理架构带来了巨大的挑战。传统的“存算一体”架构,即计算资源与存储资源紧密耦合,在处理海量数据时逐渐显露出其局限性。为了应对这些挑战,存算分离(Disaggregated Storage and Compute Architecture)和计算向数据移动(Compute Moves to Data)两种架构应运而生,成为大数据处理领域的热门技术。
40 2
|
29天前
|
JavaScript API 开发工具
<大厂实战场景> ~ Flutter&鸿蒙next 解析后端返回的 HTML 数据详解
本文介绍了如何在 Flutter 中解析后端返回的 HTML 数据。首先解释了 HTML 解析的概念,然后详细介绍了使用 `http` 和 `html` 库的步骤,包括添加依赖、获取 HTML 数据、解析 HTML 内容和在 Flutter UI 中显示解析结果。通过具体的代码示例,展示了如何从 URL 获取 HTML 并提取特定信息,如链接列表。希望本文能帮助你在 Flutter 应用中更好地处理 HTML 数据。
105 1
|
1月前
|
测试技术 开发者 Python
深入浅出:Python中的装饰器解析与应用###
【10月更文挑战第22天】 本文将带你走进Python装饰器的世界,揭示其背后的魔法。我们将一起探索装饰器的定义、工作原理、常见用法以及如何自定义装饰器,让你的代码更加简洁高效。无论你是Python新手还是有一定经验的开发者,相信这篇文章都能为你带来新的启发和收获。 ###
21 1
|
1月前
|
设计模式 测试技术 开发者
Python中的装饰器深度解析
【10月更文挑战第24天】在Python的世界中,装饰器是那些能够为函数或类“添彩”的魔法工具。本文将带你深入理解装饰器的概念、工作原理以及如何自定义装饰器,让你的代码更加优雅和高效。
|
13天前
|
数据采集 存储 自然语言处理
基于Qwen2.5的大规模ESG数据解析与趋势分析多Agent系统设计
2022年中国上市企业ESG报告数据集,涵盖制造、能源、金融、科技等行业,通过Qwen2.5大模型实现报告自动收集、解析、清洗及可视化生成,支持单/多Agent场景,大幅提升ESG数据分析效率与自动化水平。
|
1月前
|
JSON 前端开发 JavaScript
API接口商品详情接口数据解析
商品详情接口通常用于提供特定商品的详细信息,这些信息比商品列表接口中的信息更加详细和全面。以下是一个示例的JSON数据格式,用于表示一个商品详情API接口的响应。这个示例假定API返回一个包含商品详细信息的对象。
|
15天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
45 2
|
2月前
|
缓存 Java 程序员
Map - LinkedHashSet&Map源码解析
Map - LinkedHashSet&Map源码解析
70 0
|
2月前
|
算法 Java 容器
Map - HashSet & HashMap 源码解析
Map - HashSet & HashMap 源码解析
57 0