Python xpath 入门使用

简介: Python xpath 入门使用

一、简介

# 开关快捷键 
windows: Ctrl-Shift-X
Mac: Command-Shift-X

  • 简单流程
# 1、安装 lxml 库
$ pip install lxml
# 或使用国内源
$ pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple
# 2、导入 lxml.etree
from lxml import etree
# 3、解析本地文件:etree.parse()
html_tree = etree.parse('xxx.html')
# 4、解析服务器响应数据:etree.HTML()
html_tree = etree.HTML(response.read().decode('utf-8'))
# 5、xpath路径
html_tree.xpath('xpath路径')
  • xpath 严格遵守 HTML 规范,所有标签必须闭合(结束符)。

二、使用

路径表达式案例 含义
// 查找所有子孙节点,不考虑层级关系
/ 直接找子节点
//div[@id] 查询有 id 属性的 div 标签
//@class 获得所有带 class 属性标签的 class 属性值
//div[contains(@id, "he")] 查询 id 属性包含 hediv 标签
//div[starts-with(@id, "he")] 查询 id 属性以 he 开头的 div 标签
//div/h1/text() 获得 div 标签内 h1 标签的内容
//div[@id="head" and @class="one"] 查找 id 属性为 head 同时 class 属性为 onediv 标签
//div[@id="head"] | //div[@id="one"] 查找 id 属性为 headid 属性为 onediv 标签

  • 本地测试文件 test.html
<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8"/>
  <meta http-equiv="X-UA-Compatible" content="IE=edge"/>
  <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
  <title>Document</title>
</head>
<body>
  <ul>
    <li>北京</li>
    <li>上海</li>
    <li>深圳</li>
    <li>武汉</li>
  </ul>
  <ul>
    <li>大连</li>
    <li>沈阳</li>
    <li>长沙</li>
  </ul>
</body>
</html>
  • 本地案例
# 导入 lxml.etree
from lxml import etree
# 解析本地文件(远程网页内容按上面使用流程替换就行)
tree = etree.parse('test.html')
# 查找 ul 下面带 id 属性的 li 标签
li_list = tree.xpath('//ul/li[@id]/text()')  # ['北京', '上海', '深圳', '武汉']
li_list = tree.xpath('//li[@id]/text()')  # ['北京', '上海', '深圳', '武汉']
# 查找 ul 下面 id 属性为 l1 的 li 标签
li_list = tree.xpath('//li[@id="l1"]/text()')  # ['北京']
# 获取 ul 下面 id 属性为 l1 的 li 标签的内容
li_list = tree.xpath('//li[@id="l1"]/text()')  # ['北京']
# 查找 ul 下面 id 属性为 l1 的 li 标签的 class 属性值
li_list = tree.xpath('//li[@id="l1"]/@class')  # ['c1']
# 查找 id 属性中包含 3 的标签
li_list = tree.xpath('//ul/li[contains(@id, "3")]/text()')  # ['深圳']
# 查找 id 属性中以 l 开头的标签
li_list = tree.xpath('//ul/li[starts-with(@id, "l")]/text()')  # ['北京', '上海', '深圳', '武汉']
# 查找 id 属性为 l1 和 class 属性为 c1 的标签
li_list = tree.xpath('//ul/li[@id="l1" and @class="c1"]/text()')  # ['北京']
# 查找 id 属性为 l1 或 id 属性为 l2 的标签
li_list = tree.xpath('//ul/li[@id="l1" | @class="c1"]/text()')  # 错误写法
li_list = tree.xpath('//ul/li[@id="l1"]/text() | //ul/li[@id="l2"]/text()')  # ['北京', '上海']
# 输出
# print(li_list)
# print(len(li_list))
  • 远程案例
# 使用 urllib
import urllib.request
# 使用 lxml
from lxml import etree
# 定义 header
headers = {
  # UA 最基本的防爬识别
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
# 1、定义一个 https 的 url
url = 'https://www.baidu.com'
# 2、定义一个 Request 对象,urlopen 方法并不能直接带 header。
# 细节:为什么这里需要写 url=url
相关文章
|
4天前
|
Python
Python 编程入门:打造你的第一个程序
【9月更文挑战第27天】编程,就像是在数字世界里绘画。想象一下,你手中的键盘是画笔,屏幕是画布,而代码则是你的颜料。这篇文章将带你走进编程的世界,学习如何使用 Python 这门语言来创建你的第一个程序。我们将从基础的语法开始,逐步深入到条件判断和循环结构,最终完成一个简单的猜数字游戏。无论你是否有编程经验,这里的内容都将为你打开一扇新的大门。
|
4天前
|
人工智能 数据挖掘 开发者
Python编程入门:从零到英雄
【9月更文挑战第27天】本文旨在通过浅显易懂的语言,为初学者介绍Python编程的基础知识和实用技巧。我们将一起探索Python的世界,了解其语法、数据结构,并通过实际示例学习如何编写简单的Python程序。无论你是编程新手,还是希望拓展技能的开发者,这篇文章都将为你打开一扇通往Python编程世界的大门。
|
3天前
|
Python
? Python 装饰器入门:让代码更灵活和可维护
? Python 装饰器入门:让代码更灵活和可维护
11 4
|
5天前
|
存储 人工智能 数据挖掘
Python编程入门:从基础到实战
【9月更文挑战第26天】 在这篇文章中,我们将一起探索Python编程的奇妙世界。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供有价值的信息和技巧。我们将从Python的基本语法开始,然后逐步深入到更复杂的主题,如函数、类和模块。最后,我们将通过一个实际的项目来应用我们所学的知识。让我们一起开始这段Python编程之旅吧!
|
3天前
|
数据可视化 Python
使用Python进行数据可视化:从入门到精通
【8月更文挑战第60天】本文是一篇面向初学者的Python数据可视化教程,旨在帮助读者掌握如何使用Python及其强大的库(如Matplotlib和Seaborn)来创建引人入胜的数据可视化。我们将从基础开始,逐步深入,最终达到能够独立完成复杂数据可视化项目的水平。无论你的背景如何,只要你对数据可视化感兴趣,这篇文章都将为你开启一段新的学习之旅。
|
4天前
|
Python
Python 装饰器入门:让代码更灵活和可维护
Python 装饰器入门:让代码更灵活和可维护
|
6天前
|
设计模式 开发者 Python
Python中的装饰器:从入门到精通
【9月更文挑战第25天】本文深入浅出地介绍了Python装饰器的使用,包括其定义、语法和实际应用。通过实例演示如何利用装饰器增强函数功能,同时探讨了装饰器的高级用法如带参数的装饰器和装饰器嵌套。最后,文章强调了在设计装饰器时应避免的常见陷阱。
|
6天前
|
前端开发 开发者 Python
从零到一:Python Web框架中的模板引擎入门与进阶
在Web开发的广阔世界里,模板引擎是连接后端逻辑与前端展示的重要桥梁。对于Python Web开发者而言,掌握模板引擎的使用是从零到一构建动态网站或应用不可或缺的一步。本文将带你从基础入门到进阶应用,深入了解Python Web框架中的模板引擎。
13 3
|
6天前
|
Python Windows
python入门保姆级教程 | 13
python入门保姆级教程 | 13
|
6天前
|
设计模式 缓存 中间件
探索Python中的装饰器:从入门到实践
【9月更文挑战第25天】本文通过直观的语言和生动的比喻,深入浅出地介绍Python装饰器的概念、原理及应用。我们将一起走进装饰器的魔法世界,解锁其在代码编写中的强大功能,让你的代码更加优雅和高效。