文档备案控制台

开发者社区问答正文

Scrapy包括什么组件？

Scrapy包括什么组件？

展开

收起

芯在这 2021-12-08 22:56:45 452 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

引擎(Scrapy Engine)

用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

2021-12-08 22:57:35

赞同展开评论

问答分类：

Python

问答标签：

Scrapy组件

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

scrapy-redis组件中如何实现的任务的去重？

1881

1

0

scrapy-redis组件的作用？

1537

1

0

Scrapy框架中各组件的工作流程？

1640

1

0

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

204

1

0

函数运行 /opt/python/scrapy crawl pubs 提示没有权限怎么办呢？直接使用

1236

1

0

Python scrapy中间件的作用是什么？

628

1

0

Python库中的Scrapy是什么？

491

1

0

Python中的Scrapy是什么？

462

1

0

python scrapy OpenSSL安装不成功?报错

979

1

0

python scrapy 运行爬虫报错?报错

1378

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云大模型Tokens入门：2026年通义千问计费规则、价格与省钱指南

阿里云Tokens收费详解：2026年通义千问计费标准与成本评估

2026年通义千问Tokens全解：定义、计费规则与价格性价比分析

data agent 集成到我的程序

阿里云 Token Plan 是什么？Token Plan和Coding Plan有什么区别？

相关文章

全自动交易闭环！1688定制交易API，创建订单+免密付款+查单+撤单完整流程（附带Python源码）

ADEOS-I OCTS 二级区域海洋颜色 (OC) 数据，版本 2022.0

均线选股策略研究：基于 Python 数据分析实现

Java做AI不行？2026年最大的认知误区

Python 3.14安装教程 Windows版：环境变量配置+IDLE启动+自定义路径指南

还有其他疑问?