一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

简介:

在前面几篇文章中我们已经学会了如何了编写Spider去获取网页上所有的文章链接及其对应的网页目标信息。在这一篇文章中,我们将主要介绍Scrapy中的Item。

在介绍Item之前,我们需要知道明确一点,网络爬虫的主要目标就是需要从非结构化的数据源中提取出结构化的数据,在提取出结构化的数据之后,怎么将这些数据进行返回呢?最简单的一种方式就是将这些字段放到一个字典当中来,然后通过字典返回给Scrapy。虽然字典很好用,但是字典缺少一些结构性的东西,比方说我们容易敲错字段的名字,容易导致出错,比方说我们定义一个字段comment_nums,但是在另外一个爬虫中我们将传递过来的该字段写成comment_num,少了个s,那么届时到pipeline中统一处理字典的时候就会发生错误。

为了将字段进行完整的格式化,Scrapy为我们提供了Item类,这些Item类可以让我们自己来指定字段。比方说在我们这个Scrapy爬虫项目中,我们定义了一个Item类,这个Item里边包含了title、release_date、url等,这样的话通过各种爬取方法爬取过来的字段,再通过Item类进行实例化,这样的话就不容易出错了,因为我们在一个地方统一定义过了字段,而且这个字段具有唯一性。

这个Item有些类似我们常说的字典,但是它的功能要比字典更加齐全一些。同时当我们对Item进行实例化之后,在Spider爬虫主体文件里边,我们通过parse()函数获取到目标字段的Item类,我们直接将这个类进行yield即可,然后Scrapy在发现这是Item类的一个实例之后,它就会直接将这个Item载入pipeline中去。这样的话,我们就可以直接在pipeline中进行数据的保存、去重等操作。以上就是Item带给我们的好处。

接下来我们一起来到items.py文件,去定义item,如下图所示。

在这个文件中默认已经给出了示例代码,我们可以直接在这个示例代码中写入代码,当然也可以自定义的重新写一个类,形如示例代码这种模式即可。这个类需要继承scrapy中的Item,默认是已经给出来的,即scrapy.Item。下面我们根据自己待获取的目标信息的字段,在这个Item中去定义具体的字段。关于具体目标信息的字段提取,在之前的文章也有提及,主要有title、release_date、url、front_img_url、tag、voteup_num、collection_num、comment_num、content等,如下图所示。

在Item当中,它只有Field这一种类型,这个Field表示任何传递进来的数据类型都可以接收的,从这个角度来看,确实和字典有些相似。在这个文件中主要是更改字段,Item的右边统一为scrapy.Field()。由于需要不断的进行复制,这里介绍一个在Pycharm中的快捷键Ctrl+d,这个快捷键可以自动的复制鼠标光标所在的某一行的代码,可以很快的帮助我们复制代码,相当于Windows下的Ctrl+c和Ctrl+v。

至此,关于Scrapy爬虫框架中的items.py文件的介绍至此先告一段落,目前我们已经完成了所有item的定义,定义完成之后,接下来我们便可以去爬虫主体文件中对具体的item值分别进行填充了。

看完本文有收获?请转发分享给更多的人,想学习更多,请关注“IT共享之家”!

相关文章
|
2月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
130 6
|
3月前
|
数据采集 中间件 开发者
Scrapy爬虫框架-自定义中间件
Scrapy爬虫框架-自定义中间件
71 1
|
3月前
|
数据采集 中间件 Python
Scrapy爬虫框架-通过Cookies模拟自动登录
Scrapy爬虫框架-通过Cookies模拟自动登录
143 0
|
20天前
|
数据采集 安全 API
高级技术文章:使用 Kotlin 和 Unirest 构建高效的 Facebook 图像爬虫
高级技术文章:使用 Kotlin 和 Unirest 构建高效的 Facebook 图像爬虫
|
2月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
106 4
|
2月前
|
数据采集 中间件 API
在Scrapy爬虫中应用Crawlera进行反爬虫策略
在Scrapy爬虫中应用Crawlera进行反爬虫策略
|
3月前
|
数据采集 Web App开发 JSON
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
73 0
|
3月前
|
数据采集 中间件 数据挖掘
Scrapy 爬虫框架(一)
Scrapy 爬虫框架(一)
67 0
|
8月前
|
数据采集 中间件 Python
Scrapy爬虫:利用代理服务器爬取热门网站数据
Scrapy爬虫:利用代理服务器爬取热门网站数据
|
3月前
|
数据采集 XML 前端开发
Scrapy 爬虫框架(二)
Scrapy 爬虫框架(二)
56 0