文档备案控制台

开发者社区 Python技术进阶文章正文

手把手教你进行Scrapy中item类的实例化操作

2020-05-09 726

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

接下来我们将在爬虫主体文件中对Item的值进行填充。

1、首先在爬虫主体文件中将Item模块导入进来，如下图所示。

2、第一步的意思是说将items.py中的ArticleItem类导入到爬虫主体文件中去，将两个文件串联起来，其中items.py的部分内容如下图所示。

3、将这个ArticleItem类导入之后，接下来我们就可以对这个类进行初始化，并对其进行相应值的填充。首先去parse_detail函数下对其进行实例化，实例化的方法也十分简单，如下图所示。

4、接下来，我们将填充对应的值。实际上我们在之前通过Xpath或者CSS选择器已经获取到了目标数据，如下图所示，现在要做的就是依次填充目标字段的值。

5、我们可以像字典一样来给目标字段传值，例如item[“title”]= title，其他的目标字段的填充也是形如该格式，填充完成之后如下图所示。

其中，目标字段可以参考items.py中定义的item，这样可以加快填充的速度。

6、到这里，我们已经将需要填充的字段全部填充完成了，之后我们需要调用yield，这点十分重要。再调用yield之后，实例化后的item就会自动传递到pipeline当中去。可以看到下图中的pipelines.py中默认给出的代码，说明pipeline其实是可以接收item的。

7、到这里，关于实例化item的步骤就已经完成了，是不是比较简单呢？我们后面把pipeline配置起来，一步一步的将Scrapy串起来。

看完本文有收获？请转发分享给更多的人

文章标签：

Python

前端开发

数据采集

关键词：

Scrapy类

Scrapy item

python进阶者

目录

相关文章

码农技术君

|

数据采集 Python

Python爬虫：scrapy框架Spider类参数设置

Python爬虫：scrapy框架Spider类参数设置

码农技术君

256 0 0

Python爬虫：scrapy框架Spider类参数设置

码农技术君

|

数据采集 Python

python爬虫：scrapy框架Scrapy类与子类CrawlSpider

python爬虫：scrapy框架Scrapy类与子类CrawlSpider

码农技术君

318 0 0

码农技术君

|

数据采集 Python

Python爬虫：scrapy框架Spider类参数设置

Python爬虫：scrapy框架Spider类参数设置

码农技术君

331 0 0

天降攻城狮

|

数据采集搜索推荐前端开发

23、 Python快速开发分布式搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制

转： http://www.bdyss.cn http://www.swpan.cn 用命令创建自动爬虫文件创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates:母版说明　　...

天降攻城狮

1440 0 0

优惠券发放

|

Python

如何使用scrapy的item来封装数据

如何使用scrapy的item来封装数据我们是使用字典来对数据进行传递，使用字典有以下缺点。无法直观地了解数据中包含哪些字段缺乏对字段名字的检测不便于携带元数据为了克服上述问题，我们可以使用scrapy中自定义的item类封装爬取到的数据。

优惠券发放

1771 0 0

icoders

|

数据采集 Python 数据格式

Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法

当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipel...

icoders

1622 0 0

lhyxcxy

|

数据采集 Shell Python

scrapy自动多网页爬取CrawlSpider类（五）

一.目的。自动多网页爬取，这里引出CrawlSpider类，使用更简单方式实现自动爬取。二.热身。 1.CrawlSpider （1）概念与作用：它是Spider的派生类，首先在说下Spider，它是所有爬虫的基类，对于它的设计原则是只爬取start_url列表中的网页，而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更

lhyxcxy

5158 0 0

小白学大数据

|

数据采集前端开发 JavaScript

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

小白学大数据

629 5 5

土木林森

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

724 6 6

bruce_xiaowei

|

数据采集中间件开发者

Scrapy爬虫框架-自定义中间件

Scrapy爬虫框架-自定义中间件

bruce_xiaowei

353 1 1

Python技术进阶

热门文章

最新文章

Scrapy分布式、去重增量爬虫的开发与设计

在 macOS 上安装 JDK 17

centos7 如何安装与使用 Anaconda

Linux 安装 Maven

一文快速上手 Nacos 注册中心+配置中心！

Flink 靠什么征服饿了么工程师？

大数据上云那些事儿：（一）上云工具之爬虫(Scrapy)数据

Scrapy基础——CrawlSpider详解

使用 Scrapy + Selenium 爬取动态渲染的页面

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

基于Scrapy-Redis的分布式景点数据爬取与热力图生成

Scrapy框架下地图爬虫的进度监控与优化策略

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

分布式爬虫框架Scrapy-Redis实战指南

BeautifulSoup VS Scrapy：如何选择适合的HTML解析工具？

用Scrapy精准爬取BOSS直聘特定行业职位

在Scrapy爬虫中应用Crawlera进行反爬虫策略

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Scrapy入门到放弃03：理解settings配置，监控scrapy引擎|8月更文挑战

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！