文档备案控制台

开发者社区问答正文

Scrapy包括什么组件？

Scrapy包括什么组件？

展开

收起

芯在这 2021-12-08 22:56:45 476 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

引擎(Scrapy Engine)

用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

2021-12-08 22:57:35

赞同展开评论

问答分类：

Python

问答标签：

Scrapy组件

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

scrapy-redis组件中如何实现的任务的去重？

1913

1

0

scrapy-redis组件的作用？

1571

1

0

Scrapy框架中各组件的工作流程？

1672

1

0

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

235

1

0

函数运行 /opt/python/scrapy crawl pubs 提示没有权限怎么办呢？直接使用

1262

1

0

Python scrapy中间件的作用是什么？

650

1

0

Python库中的Scrapy是什么？

512

1

0

Python中的Scrapy是什么？

486

1

0

python scrapy OpenSSL安装不成功?报错

1007

1

0

python scrapy 运行爬虫报错?报错

1410

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于国际版和国内版客户端购买套餐问题

Pro试用版是只有300的Credits么？

Qoder REPO WIKI使用优化

idea qoder cn报错

qoder cn 积分为什么消耗这么快???

相关文章

服务器配置缺陷暴露 Evilginx 双路径 M365 绕过 MFA 钓鱼攻击研究

Claude Code 动态工作流速通指南，多 Agent 干活效率起飞！

实用小工具：端口卫士

GES DISC 的 OMI/Aura 和 MODIS/Aqua Aerosol 地理托管产品 1-Orbit L2 Swath 13x24 km V003 (OMMYDAGEO)

还有其他疑问?