【Python】数据解析—Xpath解析

本文涉及的产品
云解析DNS,个人版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 【Python】数据解析—Xpath解析

1.安装lxml

命令:pip install lxml

image.png

2. 语法

from lxml import etree
tree = etree.parse(filepath)

/xxx/text():取xxx节点里头的文本

/xxx//yyytext():取xxx后代中所有的yyy节点里头的文本

/xxx/*/yyy/text():取xxx节点用任意节点包裹的yyy节点里头的文本

/xxx/*/yyy[n]/text():取xxx节点用任意节点包裹的第n个索引的yyy节点里头的文本

/xxx/*/yyy[@attr_name="attr_value"]/text():取xxx节点用任意节点包裹的属性名为attr_name,属性值为attr_value的yyy节点里头的文本

./:相对位置

.../xxx/@attr_name:取属性attr_name的值

3. 一个Google小工具技巧

偷懒小技巧.png

4. Demo 猪八戒网站爬取商品信息

from lxml import etree
import requests
url = 'https://wuhan.zbj.com/search/service/?kw=saas'
content = requests.get(url)
content.encoding = 'utf-8'
html = etree.HTML(content.text)
oDivs1 = html.xpath('//*[@id="__layout"]/div/div[3]/div/div[4]/div/div[2]/div[1]/div')
for div in oDivs1:
    price = div.xpath('./div[1]/div[3]/div[1]/span/text()')[0].strip('¥')
    title = div.xpath('./div/div[3]/div[2]/a/text()')[0]
    rate = div.xpath('./div/div[3]/div[4]/div[1]/span[1]/span/text()')[0]
    print(price,title,rate)

目录
相关文章
|
1天前
|
监控 NoSQL MongoDB
MongoDB中的TTL索引:自动过期数据的深入解析与使用方式
MongoDB中的TTL索引:自动过期数据的深入解析与使用方式
8 1
|
1天前
|
JavaScript 前端开发 API
Vue核心指令解析:探索MVVM与数据操作之美
Vue核心指令解析:探索MVVM与数据操作之美
|
1天前
|
Python
Python面向对象进阶:深入解析面向对象三要素——封装、继承与多态
Python面向对象进阶:深入解析面向对象三要素——封装、继承与多态
|
2天前
|
XML 数据格式 Python
Python使用xpath对解析内容进行数据提取
今天就介绍一个用于提取所需数据的方法之一xpath。在后续会讲解bs4(beautifulsoup),re正则表达式。
|
3天前
|
计算机视觉 Python
Python矩阵转灰度图技术解析
Python矩阵转灰度图技术解析
5 1
|
25天前
|
Python 数据挖掘 数据可视化
Python数据分析——Pandas与Jupyter Notebook
【6月更文挑战第1天】 本文探讨了如何使用Python的Pandas库和Jupyter Notebook进行数据分析。首先,介绍了安装和设置步骤,然后展示了如何使用Pandas的DataFrame进行数据加载、清洗和基本分析。接着,通过Jupyter Notebook的交互式环境,演示了数据分析和可视化,包括直方图的创建。文章还涉及数据清洗,如处理缺失值,并展示了如何进行高级数据分析,如数据分组和聚合。此外,还提供了将分析结果导出到文件的方法。通过销售数据的完整案例,详细说明了从加载数据到可视化和结果导出的全过程。最后,讨论了进一步的分析和可视化技巧,如销售额趋势、产品销售排名和区域分布,以及
56 2
|
30天前
|
数据采集 数据挖掘 数据处理
Python数据分析实战:使用Pandas处理Excel文件
Python数据分析实战:使用Pandas处理Excel文件
104 0
|
1月前
|
数据采集 SQL 数据挖掘
Python数据分析中的Pandas库应用指南
在数据科学和分析领域,Python语言已经成为了一种非常流行的工具。本文将介绍Python中的Pandas库,该库提供了强大的数据结构和数据分析工具,使得数据处理变得更加简单高效。通过详细的示例和应用指南,读者将了解到如何使用Pandas库进行数据加载、清洗、转换和分析,从而提升数据处理的效率和准确性。
|
1月前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
21 1
|
1月前
|
数据挖掘 BI Python
Python数据分析(三)—— Pandas数据统计
Python数据分析(三)—— Pandas数据统计

热门文章

最新文章

推荐镜像

更多