Python:XPath与lxml类库(二)

简介: Python:XPath与lxml类库(二)

什么是XPath?



XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。


W3School官方文档:http://www.w3school.com.cn/xpath/index.asp


XPath 开发工具


  1. 开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
  2. Chrome插件 XPath Helper
  3. Firefox插件 XPath Checker


选取节点


XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。


下面列出了最常用的路径表达式:


image.png


在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:


image.png


谓语(Predicates)



谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。


在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:


image.png


选取未知节点


XPath 通配符可用来选取未知的 XML 元素。


image.png


在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:


image.png


选取若干路径


通过在路径表达式中使用“|”运算符,您可以选取若干个路径。


实例


在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:


image.png


XPath的运算符



下面列出了可用在 XPath 表达式中的运算符:


20191023183712537.png


这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml。


lxml库



lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。


lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。


lxml python 官方文档:http://lxml.de/index.html


需要安装C语言库,可使用 pip 安装:pip install lxml (或通过wheel方式安装)


初步使用



我们利用它来解析 HTML 代码,简单示例:


# lxml_test.py
# 使用 lxml 的 etree 库
from lxml import etree 
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签
     </ul>
 </div>
'''
#利用etree.HTML,将字符串解析为HTML文档
html = etree.HTML(text) 
# 按字符串序列化HTML文档
result = etree.tostring(html) 
print(result)


输出结果:


<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>


lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签。


文件读取:



除了直接读取字符串,lxml还支持从文件里读取内容。我们新建一个hello.html文件:


<!-- hello.html -->
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>


再利用 etree.parse() 方法来读取文件。


# lxml_parse.py
from lxml import etree
# 读取外部文件 hello.html
html = etree.parse('./hello.html')
result = etree.tostring(html, pretty_print=True)
print(result)


输出结果与之前相同:


<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>


XPath实例测试



1. 获取所有的

  • 标签


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
print type(html)  # 显示etree.parse() 返回类型
result = html.xpath('//li')
print result  # 打印<li>标签的元素集合
print len(result)
print type(result)
print type(result[0])


输出结果:


<type 'lxml.etree._ElementTree'>
[<Element li at 0x1014e0e18>, <Element li at 0x1014e0ef0>, <Element li at 0x1014e0f38>, <Element li at 0x1014e0f80>, <Element li at 0x1014e0fc8>]
5
<type 'list'>
<type 'lxml.etree._Element'>


2. 继续获取

  • 标签的所有 class属性


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li/@class')
print result


运行结果


['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']


  • 3. 继续获取<li>标签下hre 为 link1.html 的 <a> 标签


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li/a[@href="link1.html"]')
print result


运行结果


[<Element a at 0x10ffaae18>]


4. 获取<li> 标签下的所有 <span> 标签


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
#result = html.xpath('//li/span')
#注意这么写是不对的:
#因为 / 是用来获取子元素的,而 <span> 并不是 <li> 的子元素,所以,要用双斜杠
result = html.xpath('//li//span')
print result


运行结果


[<Element span at 0x10d698e18>]


5. 获取 <li> 标签下的<a>标签里的所有 class


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li/a//@class')
print result


运行结果


['blod']


6. 获取最后一个 <li> 的 <a> 的 href


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li[last()]/a/@href')
# 谓语 [last()] 可以找到最后一个元素
print result


运行结果


['link5.html']


7. 获取倒数第二个元素的内容


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//li[last()-1]/a')
# text 方法可以获取元素内容
print result[0].text


运行结果


fourth item


8. 获取 class 值为 bold 的标签名


# xpath_li.py
from lxml import etree
html = etree.parse('hello.html')
result = html.xpath('//*[@class="bold"]')
# tag方法可以获取标签名
print result[0].tag


运行结果


span


目录
相关文章
|
4天前
|
数据可视化 数据挖掘 数据处理
python类库详解
python类库详解
10 0
|
3月前
|
数据采集 XML 数据格式
Python爬虫Xpath库详解#4
XPath详解,涉及获取所有节点,子节点,父节点,属性匹配,文本获取,属性获取,按序选择等。【2月更文挑战第13天】
35 0
|
9月前
|
XML 存储 数据处理
Python XML处理初级篇:入门lxml库
在数据处理过程中,XML(可扩展标记语言)常常被用作数据存储和传输。Python的lxml库是一个强大的库,用于解析XML和HTML文档。本文将向您介绍如何使用lxml库来解析和处理XML文档。
|
5月前
|
机器学习/深度学习 NoSQL API
整理了上千个Python类库,简直太酷啦!
整理了上千个Python类库,简直太酷啦!
159 0
|
6月前
|
Python
Python报错: No module named 'lxml'
Python报错: No module named 'lxml'
85 1
|
6月前
|
索引 Python
【Python】数据解析—Xpath解析
【Python】数据解析—Xpath解析
34 0
|
8月前
|
数据采集 JSON API
使用Python和XPath解析动态JSON数据
使用Python和XPath解析动态JSON数据
|
9月前
|
XML 数据格式 Python
深度掌握Python lxml库:高级篇
在Python的世界中,lxml是处理XML和HTML的一款强大且易用的库。在前面的初级和中级篇章中,我们介绍了如何解析、创建、修改XML文档,如何使用XPath查询,以及如何解析大型XML文档。在这篇高级篇章中,我们将继续深入研究lxml库,包括使用XSLT转换,使用XPath函数和命名空间,以及对HTML的高级处理。
|
9月前
|
XML API 数据格式
Python XML处理中级篇:深入探索lxml库
lxml库是Python中处理XML和HTML文档的强大库,提供了丰富的API以进行各种操作。在初级篇中,我们介绍了如何使用lxml库解析、访问和修改XML文档。在这篇中级篇中,我们将更深入地探讨如何使用lxml库,包括如何创建XML文档,如何使用XPath查询,以及如何解析大型XML文档。
|
9月前
|
索引 Python
阿里云ElasticSearch索引元数据迁移-基于Python3原生类库
阿里云ElasticSearch索引元数据迁移-基于Python3原生类库