Scrapy 的初步认识-阿里云开发者社区

Scrapy 的初步认识

2023-04-27 183

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Scrapy 是一个高级的 Python 爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫获取的数据保存到 csv、json 等文件中。Scrapy 使用了 Twisted 作为框架，Twisted 是事件驱动的，对于会阻塞线程的操作（访问文件、数据库等），比较适合异步的代码。

Scrapy 数据流是由执行的核心引擎(Engine)控制，流程是这样的：

items.py 负责数据模型的建立，类似于实体类。存放的是要爬取数据的字段信息，如：文章标题，文件发布时间，文章 url 地址。
middlewares.py 自己定义的中间件。
pipelines.py 负责对 Spider 返回数据的处理。Pipeline 主要是对 Spider 中爬虫的返回的数据的处理，这里可以让 Items 写入到数据库，也可以让写入到文件。
settings.py 负责对整个爬虫的配置。
spiders目录负责存放继承自 scrapy 的爬虫类。

为主要的爬虫代码，包括了对页面的请求以及页面的处理，parse 方法的 response 返回的是这个页面的信息，这时如果需要对获取的每个文章的地址继续访问，就用到了 yield Request() 这种用法，可以把获取到文章的 url 地址继续传递进来再次进行请求（如：爬取文章列表页，然后继续爬去文章详情页的场景）。
scrapy 提供了 response.css 这种的 css 选择器以及 response.xpath 的 xpath 选择器方法，可以根据自己的需求获取想要的字段信息

Scrapy 的初步认识