【Python】数据解析—Xpath解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 【Python】数据解析—Xpath解析

1.安装lxml

命令:pip install lxml

image.png

2. 语法

from lxml import etree
tree = etree.parse(filepath)

/xxx/text():取xxx节点里头的文本

/xxx//yyytext():取xxx后代中所有的yyy节点里头的文本

/xxx/*/yyy/text():取xxx节点用任意节点包裹的yyy节点里头的文本

/xxx/*/yyy[n]/text():取xxx节点用任意节点包裹的第n个索引的yyy节点里头的文本

/xxx/*/yyy[@attr_name="attr_value"]/text():取xxx节点用任意节点包裹的属性名为attr_name,属性值为attr_value的yyy节点里头的文本

./:相对位置

.../xxx/@attr_name:取属性attr_name的值

3. 一个Google小工具技巧

偷懒小技巧.png

4. Demo 猪八戒网站爬取商品信息

from lxml import etree
import requests
url = 'https://wuhan.zbj.com/search/service/?kw=saas'
content = requests.get(url)
content.encoding = 'utf-8'
html = etree.HTML(content.text)
oDivs1 = html.xpath('//*[@id="__layout"]/div/div[3]/div/div[4]/div/div[2]/div[1]/div')
for div in oDivs1:
    price = div.xpath('./div[1]/div[3]/div[1]/span/text()')[0].strip('¥')
    title = div.xpath('./div/div[3]/div[2]/a/text()')[0]
    rate = div.xpath('./div/div[3]/div[4]/div[1]/span[1]/span/text()')[0]
    print(price,title,rate)

目录
相关文章
|
5天前
|
数据采集 JSON API
深入解析:使用 Python 爬虫获取淘宝店铺所有商品接口
本文介绍如何使用Python结合淘宝开放平台API获取指定店铺所有商品数据。首先需注册淘宝开放平台账号、创建应用并获取API密钥,申请接口权限。接着,通过构建请求、生成签名、调用接口(如`taobao.items.search`和`taobao.item.get`)及处理响应,实现数据抓取。代码示例展示了分页处理和错误处理方法,并强调了调用频率限制、数据安全等注意事项。此技能对开发者和数据分析师极具价值。
|
5天前
|
数据采集 JSON 数据可视化
JSON数据解析实战:从嵌套结构到结构化表格
在信息爆炸的时代,从杂乱数据中提取精准知识图谱是数据侦探的挑战。本文以Google Scholar为例,解析嵌套JSON数据,提取文献信息并转换为结构化表格,通过Graphviz制作技术关系图谱,揭示文献间的隐秘联系。代码涵盖代理IP、请求头设置、JSON解析及可视化,提供完整实战案例。
JSON数据解析实战:从嵌套结构到结构化表格
|
6天前
|
机器学习/深度学习 JSON 算法
淘宝拍立淘按图搜索API接口系列的应用与数据解析
淘宝拍立淘按图搜索API接口是阿里巴巴旗下淘宝平台提供的一项基于图像识别技术的创新服务。以下是对该接口系列的应用与数据解析的详细分析
|
21天前
|
存储 人工智能 程序员
通义灵码AI程序员实战:从零构建Python记账本应用的开发全解析
本文通过开发Python记账本应用的真实案例,展示通义灵码AI程序员2.0的代码生成能力。从需求分析到功能实现、界面升级及测试覆盖,AI程序员展现了需求转化、技术选型、测试驱动和代码可维护性等核心价值。文中详细解析了如何使用Python标准库和tkinter库实现命令行及图形化界面,并生成单元测试用例,确保应用的稳定性和可维护性。尽管AI工具显著提升开发效率,但用户仍需具备编程基础以进行调试和优化。
210 9
|
19天前
|
Java API 数据处理
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
24 4
|
5天前
|
存储 缓存 监控
如何高效爬取天猫商品数据?官方API与非官方接口全解析
本文介绍两种天猫商品数据爬取方案:官方API和非官方接口。官方API合法合规,适合企业长期使用,需申请企业资质;非官方接口适合快速验证需求,但需应对反爬机制。详细内容涵盖开发步骤、Python实现示例、反爬策略、数据解析与存储、注意事项及扩展应用场景。推荐工具链包括Playwright、aiohttp、lxml等。如需进一步帮助,请联系作者。
|
6天前
|
JSON API 数据格式
淘宝商品评论API接口系列的应用与数据解析
在电商平台中,用户评论是了解商品质量、服务水平和用户满意度的重要数据来源。淘宝作为中国最大的电商平台,提供了商品评论API接口,帮助开发者获取和分析用户评价数据。本文将介绍淘宝商品评论API接口系列的作用、使用方法,并通过示例展示如何调用API并解析返回的JSON数据。
|
13天前
|
存储 数据采集 JSON
Python爬取某云热歌榜:解析动态加载的歌曲数据
Python爬取某云热歌榜:解析动态加载的歌曲数据
|
9月前
|
XML JavaScript 关系型数据库
Python XML 解析
Python XML 解析
|
XML JavaScript 关系型数据库

热门文章

最新文章

推荐镜像

更多