Python:XPath与lxml类库(二)

简介: Python:XPath与lxml类库(二)

什么是XPath?



XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。


W3School官方文档:http://www.w3school.com.cn/xpath/index.asp


XPath 开发工具


  1. 开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
  2. Chrome插件 XPath Helper
  3. Firefox插件 XPath Checker


选取节点


XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。


下面列出了最常用的路径表达式:


image.png


在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:


image.png


谓语(Predicates)



谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。


在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:


image.png


选取未知节点


XPath 通配符可用来选取未知的 XML 元素。


image.png


在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:


image.png


选取若干路径


通过在路径表达式中使用“|”运算符,您可以选取若干个路径。


实例


在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:


image.png


XPath的运算符



下面列出了可用在 XPath 表达式中的运算符:


20191023183712537.png


这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml。


lxml库



lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。


lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。


lxml python 官方文档:http://lxml.de/index.html


需要安装C语言库,可使用 pip 安装:pip install lxml (或通过wheel方式安装)


初步使用



我们利用它来解析 HTML 代码,简单示例:


# lxml_test.py
# 使用 lxml 的 etree 库
from lxml import etree 
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签
     </ul>
 </div>
'''
#利用etree.HTML,将字符串解析为HTML文档
html = etree.HTML(text) 
# 按字符串序列化HTML文档
result = etree.tostring(html) 
print(result)


输出结果:


<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>


lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签。


文件读取:



除了直接读取字符串,lxml还支持从文件里读取内容。我们新建一个hello.html文件:


<!-- hello.html -->
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>


再利用 etree.parse() 方法来读取文件。


# lxml_parse.py
from lxml import etree
# 读取外部文件 hello.html
html = etree.parse('./hello.html')
result = etree.tostring(html, pretty_print=True)
print(result)


输出结果与之前相同:


<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>


XPath实例测试



1. 获取所有的

  • 标签


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
print type(html)  # 显示etree.parse() 返回类型
result = html.xpath('//li')
print result  # 打印<li>标签的元素集合
print len(result)
print type(result)
print type(result[0])


输出结果:


<type 'lxml.etree._ElementTree'>
[<Element li at 0x1014e0e18>, <Element li at 0x1014e0ef0>, <Element li at 0x1014e0f38>, <Element li at 0x1014e0f80>, <Element li at 0x1014e0fc8>]
5
<type 'list'>
<type 'lxml.etree._Element'>


2. 继续获取

  • 标签的所有 class属性


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li/@class')
print result


运行结果


['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']


  • 3. 继续获取<li>标签下hre 为 link1.html 的 <a> 标签


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li/a[@href="link1.html"]')
print result


运行结果


[<Element a at 0x10ffaae18>]


4. 获取<li> 标签下的所有 <span> 标签


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
#result = html.xpath('//li/span')
#注意这么写是不对的:
#因为 / 是用来获取子元素的,而 <span> 并不是 <li> 的子元素,所以,要用双斜杠
result = html.xpath('//li//span')
print result


运行结果


[<Element span at 0x10d698e18>]


5. 获取 <li> 标签下的<a>标签里的所有 class


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li/a//@class')
print result


运行结果


['blod']


6. 获取最后一个 <li> 的 <a> 的 href


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li[last()]/a/@href')
# 谓语 [last()] 可以找到最后一个元素
print result


运行结果


['link5.html']


7. 获取倒数第二个元素的内容


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li[last()-1]/a')
# text 方法可以获取元素内容
print result[0].text


运行结果


fourth item


8. 获取 class 值为 bold 的标签名


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//*[@class="bold"]')
# tag方法可以获取标签名
print result[0].tag


运行结果


span


目录
相关文章
|
3月前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href=&#39;example.com&#39;]` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
4月前
|
数据采集 XML 数据格式
Python爬虫--xpath
Python爬虫--xpath
38 1
|
6月前
|
SQL 关系型数据库 API
Python 开发环境的准备以及一些常用类库模块的安装
在学习和开发Python的时候,第一步的工作就是先准备好开发环境,包括相关常用的插件,以及一些辅助工具,这样我们在后续的开发工作中,才能做到事半功倍。下面介绍一些Python 开发环境的准备以及一些常用类库模块的安装和使用的经验总结,供大家参考了解。
|
6月前
|
XML 前端开发 数据格式
三分钟搞定 Python XPath 语法
XPath(XML Path Language)是一种用于在 XML 文档中查找信息的语言。它基于树状结构的 XML 文档,可以通过路径表达式来选取节点或节点集。也常常用来解析 HTML。 如果你是一个前端,对用路径获取元素可能陌生又熟悉。陌生是很多的路径,熟悉的路径上又有熟悉的属性和方法。下面我们就来探究一下 XPath 的魅力。
|
6月前
|
Python
【Python 3】解决FeatureNotFound: Couldn‘t find a tree builder with the features you requested: lxml.
文章讨论了在使用Python的BeautifulSoup库时遇到的"Couldn't find a tree builder with"错误,并提供了解决方案。
272 0
|
7月前
|
XML API 数据格式
`lxml`是一个功能强大的Python库
`lxml`是一个功能强大的Python库
|
7月前
|
数据采集 XML API
Python 爬虫数据抓取(10):LXML
Python 爬虫数据抓取(10):LXML
91 1
|
8月前
|
XML 数据格式 Python
Python使用xpath对解析内容进行数据提取
今天就介绍一个用于提取所需数据的方法之一xpath。在后续会讲解bs4(beautifulsoup),re正则表达式。
|
8月前
|
XML 数据库 数据格式
Python网络数据抓取(9):XPath
Python网络数据抓取(9):XPath
49 0
|
8月前
|
XML 数据格式 Python
Python使用xpath对解析内容进行数据提取
在前面的文章当中,已经教大家如何去获取我们需要的数据原文内容,今天就介绍一个用于提取所需数据的方法之一xpath。在后续会讲解bs4(beautifulsoup),re正则表达式。

热门文章

最新文章

推荐镜像

更多