- XPath 简介
- XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位节点的语言。它使用路径表达式来选取 XML/HTML 文档中的节点或者节点集。虽然它是为 XML 设计的,但由于 HTML 可以看作是 XML 的一种应用(XHTML),所以 XPath 也非常适合用于解析 HTML 文档。
- 例如,一个简单的 HTML 页面可能包含多个
<div>
标签,使用 XPath 可以精确地定位到包含特定内容的<div>
标签,比如定位到包含文章标题的<div>
。
- XPath 基本语法
- 节点选取
- 标签名选取:使用标签名可以选取文档中所有该标签的节点。例如,在 HTML 文档中
//p
会选取所有的<p>
段落标签。这就像是在图书馆的书架(HTML 文档)中挑选所有某一类型(标签名)的书籍。 - 属性选取:通过
[@属性名='属性值']
的格式可以选取具有特定属性的节点。例如,//a[@href='https://www.example.com']
会选取所有href
属性值为https://www.example.com
的<a>
链接标签。这就好比挑选所有有特定作者(属性值)的书籍(节点)。
- 层级关系
- 父子关系:使用
/
表示父子关系。例如,//div/p
表示选取所有<div>
标签下的<p>
子标签。可以把它想象成在一个文件夹(<div>
)里面找特定文件(<p>
)。 - 祖先 - 后代关系:使用
//
表示祖先 - 后代关系。//body//p
会选取<body>
标签内所有的<p>
标签,不管它们之间间隔了多少层标签。这类似于在一个大的建筑(<body>
)的各个房间(标签)里找特定的物品(<p>
)。
- 在 Python 爬虫中的应用
- 安装 lxml 库:在 Python 中,通常使用 lxml 库来支持 XPath 解析。可以通过
pip install lxml
命令进行安装。lxml 库提供了高效的 XML 和 HTML 解析功能,并且很好地支持 XPath。 - 解析 HTML 文档示例
- 首先,使用
requests
库获取网页内容(假设已经安装了requests
库),例如:
import requests from lxml import etree url = "https://www.example.com" response = requests.get(url) html_content = response.text
- 然后,使用 lxml 的
etree.HTML
函数将 HTML 内容转换为可解析的对象:
tree = etree.HTML(html_content)
- 最后,使用 XPath 表达式来提取信息。比如,要提取网页中所有文章标题(假设标题在
<h1>
标签中):
titles = tree.xpath("//h1/text()") for title in titles: print(title)
- 提取复杂结构信息
- 当需要提取更复杂的信息时,XPath 的优势更加明显。例如,在一个包含商品信息的网页中,商品名称可能在
<div class="product - name">
标签中,价格在<span class="price">
标签中。可以使用以下 XPath 表达式来同时提取名称和价格:
product_names = tree.xpath("//div[@class='product - name']/text()") product_prices = tree.xpath("//span[@class='price']/text()") for name, price in zip(product_names, product_prices): print(f"商品名称: {name}, 价格: {price}")
- XPath 高级技巧
- 轴(Axis)的使用:轴可以让你在文档树中更灵活地导航。例如,
following - sibling
轴可以用于选取当前节点之后的兄弟节点。假设你已经定位到一个文章的发布日期节点,想要选取同一行后面的作者姓名节点,可以使用类似//date/following - sibling::author
的表达式(这里假设日期标签为<date>
,作者标签为<author>
)。 - 函数的应用:XPath 提供了一些函数来增强表达式的功能。比如
contains()
函数可以用于模糊匹配。如果要查找所有href
属性中包含product
字样的<a>
链接,可以使用//a[contains(@href,'product')]
。这在你不确定完整的属性值,但知道部分内容时非常有用。