Python 爬虫数据抓取(10):LXML

简介: Python 爬虫数据抓取(10):LXML

引言

它是一个第三方库,专门用于操作XML文件。我们在上一节中已经对XML有了深入的了解。

LXML不仅全面支持XPath查询语言,还提供了一系列便捷的工厂方法,这让它成为处理XML的优选工具。LXML的核心目标是利用其内置的元素树API,简化XML文件的处理过程。

LXML能够轻松读取文件或字符串形式的XML数据,并将它们转换成易于操作的etree元素。

接下来,我们将探讨在进行网页数据抓取时如何有效利用lxml库。

实战

首先,你需要创建一个文件夹,并在其中安装这个库。

>>> mkdir scraper
>>> pip install lxml

完成后,在 scraper 文件夹中创建一个 scraper.py 文件并开始编码。

from lxml import html

import requests

我们导入了 requests 库来请求,因为我们还必须获取该网页的 HTML 数据。

url=”https://en.wikipedia.org/wiki/Outline_of_the_Marvel_Cinematic_Universe”

然后我们将向我们的 URL 发送一个 HTTP 请求。

resp = requests.get(url)
print(resp)

现在,如果您运行它,您将获得 200 个代码,这意味着我们已经成功抓取了目标 URL。

现在,让我们为 HTML 文档创建一个解析树。

tree = html.fromstring(resp.content)

html.fromstring 这个函数能够将你的HTML内容转换成一个树状结构,并返回这个树的根节点。当你打印这个树时,会看到类似于 <Element html at 0x1e18439ff10> 的输出。

这表明我们获取了位于特定内存地址的HTML元素,而我们知道,HTML标签是构成任何HTML文档的基础。

接下来,我打算利用Xpath来查找特定的元素。我们在本文之前的内容中已经介绍过Xpath。我们想要的目标元素的Xpath路径是 //*[@id="mw-content-text"]/div[1]/table[2]/tbody/tr[3]/th/i/a

elements = tree.xpath(//*[@id=”mw-content-text”]/div[1]/table[2]/tbody/tr[3]/th/i/a’)

执行代码后,我们成功匹配并获取了目标元素,它与特定的Xpath相符合。

你将看到这样的输出 <Element a at 0x1eaed41c220>,它表示一个超链接(锚点)标签。从这个标签中,我们有两种方式提取数据。

使用 .text 方法可以获取标签内的文本内容。例如,elements[0].text 会返回文本 "Iron Man"。 使用 .attrib 方法则返回一个包含属性的字典,例如 {'href': '/wiki/Iron_Man_(2008_film)', 'title': 'Iron Man (2008 film)'}。这提供了我们真正需要的 href 属性值,即链接地址。同时,我们还能得到电影的标题信息。 但既然我们只关心 href 属性的值,我们将采用特定的方法来提取它。

elements[0].attrib[‘href’]

执行代码后,我们成功定位了与特定Xpath匹配的元素。

你会得到一个表示为 <Element a at 0x1eaed41c220> 的结果,它代表一个网页中的超链接(锚点)。我们有两种方式来提取这个标签中的数据。

使用 .text 属性可以获取标签内的文本内容,比如 elements[0].text 会输出 "Iron Man"。 使用 .attrib 属性则会返回一个字典,包含如 {'href': '/wiki/Iron_Man_(2008_film)', 'title': 'Iron Man (2008 film)'} 的键值对。这为我们提供了实际所需的 href 属性,也就是链接地址。同时,我们还能得到电影的标题信息。 但因为我们只需要链接地址,所以我们将采取相应的操作来获取它。

elements[0].attrib[‘href’]

这将返回目标链接。这就是我们想要的。

相关文章
|
1天前
|
数据采集 存储 JSON
解密网络爬虫与数据抓取技术的奇妙世界
【7月更文挑战第2天】网络爬虫是自动化数据抓取的关键工具,用于解锁互联网数据的潜力。本文深入探讨了爬虫基础,包括模拟HTTP请求、HTML解析和数据存储。通过实例展示如何用Python构建简单爬虫,强调法律与伦理考虑,如遵循robots.txt、尊重版权和隐私,以及应对反爬策略。合法、负责任的爬虫技术在商业、科研等领域发挥着重要作用,要求我们在数据探索中保持透明、最小影响和隐私保护。
6 1
|
3天前
|
数据采集 Python
半小时速通Python爬虫!GitHub开源的Python爬虫入门教程
今天给小伙伴们带来了一篇详细介绍 Python 爬虫入门的教程,从实战出发,适合初学者。 小伙伴们只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫。
|
3天前
|
数据采集 Python
半小时速通Python爬虫!GitHub开源的Python爬虫入门教程
今天给小伙伴们带来了一篇详细介绍 Python 爬虫入门的教程,从实战出发,适合初学者。 小伙伴们只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫。
|
17小时前
|
数据采集 存储 自然语言处理
Python爬虫与数据可视化:构建完整的数据采集与分析流程
Python爬虫与数据可视化:构建完整的数据采集与分析流程
|
Python API 数据采集
Python lxml获取和设置inner html
Python的lxml是一个相当强悍的解析html、XML的模块,最新版本支持的python版本从2.6到3.6,是写爬虫的必备利器。它基于C语言库libxml2 和 libxslt,进行了Python范儿(Pythonic)的绑定,成为一个具有丰富特性又容易使用的Python模块。
1542 0
|
10天前
|
机器学习/深度学习 人工智能 前端开发
Python中的模块化编程
【6月更文挑战第17天】Python模块化编程与软件架构设计的关键在于拆分任务到独立模块,提高代码的可维护性、可重用性和可扩展性。例如,学生管理系统可分解为录入、查询和删除模块。MVC和MVVM架构模式有助于组织代码,而微服务和函数式编程将在未来发展中扮演重要角色。通过示例代码,读者能学习如何实现这些概念,提升项目开发效率和质量。
156 57
|
17天前
|
测试技术 虚拟化 云计算
GitHub高赞!速通Python编程基础手册,被玩出花了!
随着云时代的来临,Python 语言越来越被程序开发人员喜欢和使用,因为其不仅简单易学,而且还有丰富的第三方程序库和相应完善的管理工具。 从命令行脚本程序到 GUI程序,从图形技术到科学计算,从软件开发到自动化测试,从云计算到虚拟化,所有这些领域都有 Python 的身影。 今天给小伙伴们分享的这份手册采用以任务为导向的编写模式,全面地介绍了 Python 编程基础及其相关知识的应用,讲解了如何利用 Python 的知识解决部分实际问题。
GitHub高赞!速通Python编程基础手册,被玩出花了!
|
7天前
|
数据挖掘 数据处理 Python
Python编程入门:从基础到实践
【6月更文挑战第26天】这篇文章引导读者逐步学习Python编程,从基础语法如变量、数据类型(整数、浮点数、字符串)到条件语句、循环(if/for/while),再到函数定义和模块导入。通过实例展示了Python在文本处理、数据分析(使用pandas)和Web开发(使用Flask)的应用。学习Python能为初学者开启更广阔的技术领域,如面向对象编程、并发和网络编程等。
|
4天前
|
设计模式 程序员 测试技术
老程序员分享:Python数据模型及Pythonic编程
老程序员分享:Python数据模型及Pythonic编程
16 1
|
8天前
|
Python
Python多进程编程详细剖析
Python多进程编程详细剖析
14 3