Scrapy基础详解-阿里云开发者社区

Scrapy基础详解

2022-10-25 264

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Scrapy基础详解

Scrapy框架

什么是scrapy框架

Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含 request （异步调度和处理）、下载器（多线程的 Downloader）、解析器（selector）和 twisted（异步处理）等。对于网站的内容爬取，其速度非常快捷。

安装

pip install scrapy

创建一个工程(终端)：

# 在终端运行如下命令
# 第一步 创建项目
  scrapy startproject xxx    # xxx是项目的名称
# 第二步 进入项目
  cd xxx 
# 第三步 创建爬虫文件 
scrapy genspider spiderName www.xxxxx.com   # 网址为你要爬取的网站刚开始也可以随意写，后面可以在项目中改

创建项目完成后的文件目录结构

各文件的作用（根据我自己的项目）

scrapy.cfg: 项目的配置文件，一般不需要更改。

scrapy文件夹存放爬虫代码

wangyi.py: 爬虫代码，初步处理数据

items.py: 定义爬取的数据类，

middlewares.py 中间件文件，自定义

pipelines.py: 管道文件接受item.py中的数据当我们的items被返回的时候，会自动调用我们的pipelines类中process_item()（需要加到settings.py里面）

settings.py: 项目的设置文件。设置伪装方式，ip代理

piders/: 放置spider代码的目录。

执行工程：

- scrapy crawl spiderName # 运行项目

scrapy持久化存储：

基于管道：

编码流程：

数据解析

在item中定义相关属性

将解析的数据封装储存到list类型的对象

将item类型的对象提交给管道进行持久化存储的操作

在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作

在配置文件中开启管道

好处：

通用性强

面试题

将爬取到的数据一份存储到本地，一份存储到数据库，如何实现

管道文件中一个管道类对应的是将数据储存到一个平台

爬虫文件提交的item只会给管道文件中第一个被执行的管道类接受

process_item中的return item 表示将item传递给下一个即将被执行的管道类

scrapy五大核心组件：

引擎

用来处理整个数据流处理，触发事务（框架的核心）

调度器

用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回，可以想象成一个URL（抓取网页的地址或者说是链接）

的优先队列，由它类决定下一个抓取的网址是什么，可以去除重复的网址

下载器：

用于下载网页端的内容，并将网页的内容返回给蜘蛛（Scrapy 下载器是建立在twisted这个高效的异步模型）

爬虫

爬虫主要用来干活，用于从特定的网页中提取自己需要的内容，即所谓的实体item，用户也可以从中提取出链接让Scrapy继续爬取下一个页面

项目管道

负责处理爬虫从网页中抽取到的实体，主要的功能是持久化实体，验证实体的有效性，清楚不需要的信息，当当页面被爬虫解析后

将被发送到项目管道，并经过几个特定的次序处理数据

Scrapy基础详解

Scrapy框架

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Scrapy基础详解

Scrapy框架

热门文章

最新文章

相关课程

相关电子书