Python爬虫--xpath

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: Python爬虫--xpath

xpath
1、xpath安装与使用
安装

安装lxml库
pip install lxml -i pip源
2、解析流程与使用
解析流程

实例化一个etree的对象,把即将被解析的页面源码加载到该对象
调用该对象的xpath方法结合着不同形式的xpath表达进行标签定位和数据提取
使用

  1. 导入lxml.etree

    from lxml import etree
    etree.parse()
    
  2. 解析本地html文件

    html_tree = etree.parse(‘XX.html’)
    etree.HTML()(建议)
    
  3. 解析网络的html字符串

    html_tree = etree.HTML(html字符串)
    html_tree.xpath()
    
  4. 使用xpath路径查询信息,返回一个列表

注意:如果lxml解析本地HTML文件报错可以安装如下添加参数

parser = etree.HTMLParser(encoding="utf-8")
selector = etree.parse('./lol_1.html',parser=parser)
result=etree.tostring(selector)

3、xpath语法
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

路径表达式
image.png
实例

在下面的表格中,我们已列出了一些路径表达式以及表达式的结果
image.png
谓语(Predicates)

  • 谓语用来查找某个特定的节点或者包含某个指定的值的节点。
  • 谓语被嵌在方括号中。

实例
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
image.png
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
image.png
实例
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
image.png
选取若干路径

通过在路径表达式中使用“|”运算符,您可以选取若干个路径。

实例

在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
image.png
逻辑运算
查找所有id属性等于head并且class属性等于s_down的div标签

//div[@id="head" and @class="s_down"]

选取文档中的所有 title 和 price 元素。

//title | //price

注意: “|”两边必须是完整的xpath路径

属性查询
查找所有包含id属性的div节点

//div[@id]

查找所有id属性等于maincontent的div标签

//div[@id="maincontent"]

查找所有的class属性

//@class
//@attrName
//li[@name="xx"]//text()  # 获取li标签name为xx的里面的文本内容

获取第几个标签 索引从1开始

tree.xpath('//li[1]/a/text()')  # 获取第一个
tree.xpath('//li[last()]/a/text()')  # 获取最后一个
tree.xpath('//li[last()-1]/a/text()')  # 获取倒数第二个

模糊查询
查询所有id属性中包含he的div标签

//div[contains(@id, "he")]

查询所有id属性中包以he开头的div标签

//div[starts-with(@id, "he")]

内容查询
查找所有div标签下的直接子节点h1的内容

//div/h1/text()

属性值获取

//div/a/@href   获取a里面的href属性值

获取所有

//*  #获取所有
//*[@class="xx"]  #获取所有class为xx的标签

获取节点内容转换成字符串

c = tree.xpath('//li/a')[0]
result=etree.tostring(c, encoding='utf-8')
print(result.decode('UTF-8'))
相关文章
|
6天前
|
数据采集 存储 JavaScript
构建你的第一个Python网络爬虫
【9月更文挑战第34天】在数字信息泛滥的时代,快速有效地获取和处理数据成为一项重要技能。本文将引导读者通过Python编写一个简易的网络爬虫,实现自动化地从网页上抓取数据。我们将一步步走过代码的编写过程,并探讨如何避免常见陷阱。无论你是编程新手还是想扩展你的技术工具箱,这篇文章都将为你提供有价值的指导。
47 18
|
6天前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
121 66
|
1天前
|
数据采集 Python
Python爬虫-爬取全国各地市的邮编链接
Python爬虫-爬取全国各地市的邮编链接
|
10天前
|
数据采集 存储 XML
构建高效的Python爬虫系统
【9月更文挑战第30天】在数据驱动的时代,掌握如何快速高效地获取网络信息变得至关重要。本文将引导读者了解如何构建一个高效的Python爬虫系统,从基础概念出发,逐步深入到高级技巧和最佳实践。我们将探索如何使用Python的强大库如BeautifulSoup和Scrapy,以及如何应对反爬措施和提升爬取效率的策略。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的知识和技能,帮助你在信息收集的海洋中航行得更远、更深。
30 6
|
9天前
|
数据采集 数据挖掘 数据处理
Python中实现简单爬虫并处理数据
【9月更文挑战第31天】本文将引导读者理解如何通过Python创建一个简单的网络爬虫,并展示如何处理爬取的数据。我们将讨论爬虫的基本原理、使用requests和BeautifulSoup库进行网页抓取的方法,以及如何使用pandas对数据进行清洗和分析。文章旨在为初学者提供一个易于理解的实践指南,帮助他们快速掌握网络数据抓取的基本技能。
20 3
|
2天前
|
数据采集 存储 数据处理
Python爬虫-数据处理与存储(一)
Python爬虫-数据处理与存储(一)
13 0
|
2天前
|
SQL 关系型数据库 MySQL
Python爬虫-数据处理与存储(二)
Python爬虫-数据处理与存储(二)
|
2天前
|
数据采集 消息中间件 Python
Python爬虫-进程间通信
Python爬虫-进程间通信
|
11天前
|
数据采集 Linux 网络安全
python 爬虫遇到的aiohttp证书错误解决办法
python 爬虫遇到的aiohttp证书错误解决办法
37 0
|
4月前
|
XML 数据格式 Python
Python使用xpath对解析内容进行数据提取
在前面的文章当中,已经教大家如何去获取我们需要的数据原文内容,今天就介绍一个用于提取所需数据的方法之一xpath。在后续会讲解bs4(beautifulsoup),re正则表达式。