Python 爬虫必备杀器,xpath 解析 HTML

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
  1. XPath 简介
  • XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位节点的语言。它使用路径表达式来选取 XML/HTML 文档中的节点或者节点集。虽然它是为 XML 设计的,但由于 HTML 可以看作是 XML 的一种应用(XHTML),所以 XPath 也非常适合用于解析 HTML 文档。
  • 例如,一个简单的 HTML 页面可能包含多个<div>标签,使用 XPath 可以精确地定位到包含特定内容的<div>标签,比如定位到包含文章标题的<div>
  1. XPath 基本语法
  • 节点选取
  • 标签名选取:使用标签名可以选取文档中所有该标签的节点。例如,在 HTML 文档中//p会选取所有的<p>段落标签。这就像是在图书馆的书架(HTML 文档)中挑选所有某一类型(标签名)的书籍。
  • 属性选取:通过[@属性名='属性值']的格式可以选取具有特定属性的节点。例如,//a[@href='https://www.example.com']会选取所有href属性值为https://www.example.com<a>链接标签。这就好比挑选所有有特定作者(属性值)的书籍(节点)。
  • 层级关系
  • 父子关系:使用/表示父子关系。例如,//div/p表示选取所有<div>标签下的<p>子标签。可以把它想象成在一个文件夹(<div>)里面找特定文件(<p>)。
  • 祖先 - 后代关系:使用//表示祖先 - 后代关系。//body//p会选取<body>标签内所有的<p>标签,不管它们之间间隔了多少层标签。这类似于在一个大的建筑(<body>)的各个房间(标签)里找特定的物品(<p>)。
  1. 在 Python 爬虫中的应用
  • 安装 lxml 库:在 Python 中,通常使用 lxml 库来支持 XPath 解析。可以通过pip install lxml命令进行安装。lxml 库提供了高效的 XML 和 HTML 解析功能,并且很好地支持 XPath。
  • 解析 HTML 文档示例
  • 首先,使用requests库获取网页内容(假设已经安装了requests库),例如:


import requests
from lxml import etree
url = "https://www.example.com"
response = requests.get(url)
html_content = response.text


  • 然后,使用 lxml 的etree.HTML函数将 HTML 内容转换为可解析的对象:


tree = etree.HTML(html_content)


  • 最后,使用 XPath 表达式来提取信息。比如,要提取网页中所有文章标题(假设标题在<h1>标签中):


titles = tree.xpath("//h1/text()")
for title in titles:
    print(title)


  • 提取复杂结构信息
  • 当需要提取更复杂的信息时,XPath 的优势更加明显。例如,在一个包含商品信息的网页中,商品名称可能在<div class="product - name">标签中,价格在<span class="price">标签中。可以使用以下 XPath 表达式来同时提取名称和价格:


product_names = tree.xpath("//div[@class='product - name']/text()")
product_prices = tree.xpath("//span[@class='price']/text()")
for name, price in zip(product_names, product_prices):
    print(f"商品名称: {name}, 价格: {price}")


  1. XPath 高级技巧
  • 轴(Axis)的使用:轴可以让你在文档树中更灵活地导航。例如,following - sibling轴可以用于选取当前节点之后的兄弟节点。假设你已经定位到一个文章的发布日期节点,想要选取同一行后面的作者姓名节点,可以使用类似//date/following - sibling::author的表达式(这里假设日期标签为<date>,作者标签为<author>)。
  • 函数的应用:XPath 提供了一些函数来增强表达式的功能。比如contains()函数可以用于模糊匹配。如果要查找所有href属性中包含product字样的<a>链接,可以使用//a[contains(@href,'product')]。这在你不确定完整的属性值,但知道部分内容时非常有用。
相关文章
|
16天前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
13天前
|
数据挖掘 vr&ar C++
让UE自动运行Python脚本:实现与实例解析
本文介绍如何配置Unreal Engine(UE)以自动运行Python脚本,提高开发效率。通过安装Python、配置UE环境及使用第三方插件,实现Python与UE的集成。结合蓝图和C++示例,展示自动化任务处理、关卡生成及数据分析等应用场景。
71 5
|
27天前
|
存储 缓存 Python
Python中的装饰器深度解析与实践
在Python的世界里,装饰器如同一位神秘的魔法师,它拥有改变函数行为的能力。本文将揭开装饰器的神秘面纱,通过直观的代码示例,引导你理解其工作原理,并掌握如何在实际项目中灵活运用这一强大的工具。从基础到进阶,我们将一起探索装饰器的魅力所在。
|
1月前
|
Android开发 开发者 Python
通过标签清理微信好友:Python自动化脚本解析
微信已成为日常生活中的重要社交工具,但随着使用时间增长,好友列表可能变得臃肿。本文介绍了一个基于 Python 的自动化脚本,利用 `uiautomator2` 库,通过模拟用户操作实现根据标签批量清理微信好友的功能。脚本包括环境准备、类定义、方法实现等部分,详细解析了如何通过标签筛选并删除好友,适合需要批量管理微信好友的用户。
51 7
|
2月前
|
测试技术 开发者 Python
使用Python解析和分析源代码
本文介绍了如何使用Python的`ast`模块解析和分析Python源代码,包括安装准备、解析源代码、分析抽象语法树(AST)等步骤,展示了通过自定义`NodeVisitor`类遍历AST并提取信息的方法,为代码质量提升和自动化工具开发提供基础。
55 8
|
2月前
|
数据可视化 图形学 Python
在圆的外面画一个正方形:Python实现与技术解析
本文介绍了如何使用Python的`matplotlib`库绘制一个圆,并在其外部绘制一个正方形。通过计算正方形的边长和顶点坐标,实现了圆和正方形的精确对齐。代码示例详细展示了绘制过程,适合初学者学习和实践。
48 9
|
2月前
|
存储 缓存 开发者
Python编程中的装饰器深度解析
本文将深入探讨Python语言的装饰器概念,通过实际代码示例展示如何创建和应用装饰器,并分析其背后的原理和作用。我们将从基础定义出发,逐步引导读者理解装饰器的高级用法,包括带参数的装饰器、多层装饰器以及装饰器与类方法的结合使用。文章旨在帮助初学者掌握这一强大工具,同时为有经验的开发者提供更深层次的理解和应用。
39 7
|
27天前
|
机器学习/深度学习 前端开发 数据处理
利用Python将Excel快速转换成HTML
本文介绍如何使用Python将Excel文件快速转换成HTML格式,以便在网页上展示或进行进一步的数据处理。通过pandas库,你可以轻松读取Excel文件并将其转换为HTML表格,最后保存为HTML文件。文中提供了详细的代码示例和注意事项,帮助你顺利完成这一任务。
39 0
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
Python编程语言的魅力:从入门到进阶的全方位解析
Python编程语言的魅力:从入门到进阶的全方位解析