Python 爬虫必备杀器,xpath 解析 HTML

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
  1. XPath 简介
  • XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位节点的语言。它使用路径表达式来选取 XML/HTML 文档中的节点或者节点集。虽然它是为 XML 设计的,但由于 HTML 可以看作是 XML 的一种应用(XHTML),所以 XPath 也非常适合用于解析 HTML 文档。
  • 例如,一个简单的 HTML 页面可能包含多个<div>标签,使用 XPath 可以精确地定位到包含特定内容的<div>标签,比如定位到包含文章标题的<div>
  1. XPath 基本语法
  • 节点选取
  • 标签名选取:使用标签名可以选取文档中所有该标签的节点。例如,在 HTML 文档中//p会选取所有的<p>段落标签。这就像是在图书馆的书架(HTML 文档)中挑选所有某一类型(标签名)的书籍。
  • 属性选取:通过[@属性名='属性值']的格式可以选取具有特定属性的节点。例如,//a[@href='https://www.example.com']会选取所有href属性值为https://www.example.com<a>链接标签。这就好比挑选所有有特定作者(属性值)的书籍(节点)。
  • 层级关系
  • 父子关系:使用/表示父子关系。例如,//div/p表示选取所有<div>标签下的<p>子标签。可以把它想象成在一个文件夹(<div>)里面找特定文件(<p>)。
  • 祖先 - 后代关系:使用//表示祖先 - 后代关系。//body//p会选取<body>标签内所有的<p>标签,不管它们之间间隔了多少层标签。这类似于在一个大的建筑(<body>)的各个房间(标签)里找特定的物品(<p>)。
  1. 在 Python 爬虫中的应用
  • 安装 lxml 库:在 Python 中,通常使用 lxml 库来支持 XPath 解析。可以通过pip install lxml命令进行安装。lxml 库提供了高效的 XML 和 HTML 解析功能,并且很好地支持 XPath。
  • 解析 HTML 文档示例
  • 首先,使用requests库获取网页内容(假设已经安装了requests库),例如:


import requests
from lxml import etree
url = "https://www.example.com"
response = requests.get(url)
html_content = response.text


  • 然后,使用 lxml 的etree.HTML函数将 HTML 内容转换为可解析的对象:


tree = etree.HTML(html_content)


  • 最后,使用 XPath 表达式来提取信息。比如,要提取网页中所有文章标题(假设标题在<h1>标签中):


titles = tree.xpath("//h1/text()")
for title in titles:
    print(title)


  • 提取复杂结构信息
  • 当需要提取更复杂的信息时,XPath 的优势更加明显。例如,在一个包含商品信息的网页中,商品名称可能在<div class="product - name">标签中,价格在<span class="price">标签中。可以使用以下 XPath 表达式来同时提取名称和价格:


product_names = tree.xpath("//div[@class='product - name']/text()")
product_prices = tree.xpath("//span[@class='price']/text()")
for name, price in zip(product_names, product_prices):
    print(f"商品名称: {name}, 价格: {price}")


  1. XPath 高级技巧
  • 轴(Axis)的使用:轴可以让你在文档树中更灵活地导航。例如,following - sibling轴可以用于选取当前节点之后的兄弟节点。假设你已经定位到一个文章的发布日期节点,想要选取同一行后面的作者姓名节点,可以使用类似//date/following - sibling::author的表达式(这里假设日期标签为<date>,作者标签为<author>)。
  • 函数的应用:XPath 提供了一些函数来增强表达式的功能。比如contains()函数可以用于模糊匹配。如果要查找所有href属性中包含product字样的<a>链接,可以使用//a[contains(@href,'product')]。这在你不确定完整的属性值,但知道部分内容时非常有用。
相关文章
|
12天前
|
存储 索引 Python
Python入门:6.深入解析Python中的序列
在 Python 中,**序列**是一种有序的数据结构,广泛应用于数据存储、操作和处理。序列的一个显著特点是支持通过**索引**访问数据。常见的序列类型包括字符串(`str`)、列表(`list`)和元组(`tuple`)。这些序列各有特点,既可以存储简单的字符,也可以存储复杂的对象。 为了帮助初学者掌握 Python 中的序列操作,本文将围绕**字符串**、**列表**和**元组**这三种序列类型,详细介绍其定义、常用方法和具体示例。
Python入门:6.深入解析Python中的序列
|
12天前
|
存储 Linux iOS开发
Python入门:2.注释与变量的全面解析
在学习Python编程的过程中,注释和变量是必须掌握的两个基础概念。注释帮助我们理解代码的意图,而变量则是用于存储和操作数据的核心工具。熟练掌握这两者,不仅能提高代码的可读性和维护性,还能为后续学习复杂编程概念打下坚实的基础。
Python入门:2.注释与变量的全面解析
|
19天前
|
数据采集 Web App开发 监控
深度解析:使用ChromeDriver和webdriver_manager实现无头浏览器爬虫
在现代网络爬虫实践中,动态网页加载和反爬虫机制增加了数据采集的难度。采用无头浏览器技术(如Selenium与ChromeDriver)可有效模拟用户行为、执行JavaScript,获取动态内容。通过设置代理IP、伪装User-Agent和处理Cookies,提升爬虫隐蔽性和稳定性。该方案适用于电商价格监控、社交媒体数据采集和招聘信息抓取等场景,实现更高效的数据获取。
深度解析:使用ChromeDriver和webdriver_manager实现无头浏览器爬虫
|
11天前
|
存储 人工智能 程序员
通义灵码AI程序员实战:从零构建Python记账本应用的开发全解析
本文通过开发Python记账本应用的真实案例,展示通义灵码AI程序员2.0的代码生成能力。从需求分析到功能实现、界面升级及测试覆盖,AI程序员展现了需求转化、技术选型、测试驱动和代码可维护性等核心价值。文中详细解析了如何使用Python标准库和tkinter库实现命令行及图形化界面,并生成单元测试用例,确保应用的稳定性和可维护性。尽管AI工具显著提升开发效率,但用户仍需具备编程基础以进行调试和优化。
159 9
|
12天前
|
数据采集 存储 数据挖掘
深入剖析 Python 爬虫:淘宝商品详情数据抓取
深入剖析 Python 爬虫:淘宝商品详情数据抓取
|
18天前
|
监控 算法 安全
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
35 10
|
15天前
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
|
19天前
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
2月前
|
存储 算法 安全
控制局域网上网软件之 Python 字典树算法解析
控制局域网上网软件在现代网络管理中至关重要,用于控制设备的上网行为和访问权限。本文聚焦于字典树(Trie Tree)算法的应用,详细阐述其原理、优势及实现。通过字典树,软件能高效进行关键词匹配和过滤,提升系统性能。文中还提供了Python代码示例,展示了字典树在网址过滤和关键词屏蔽中的具体应用,为局域网的安全和管理提供有力支持。
57 17
|
3天前
|
存储 数据采集 JSON
Python爬取某云热歌榜:解析动态加载的歌曲数据
Python爬取某云热歌榜:解析动态加载的歌曲数据

热门文章

最新文章