【安全合规】python爬虫从0到1-Scrapy框架的介绍

2022-04-14 356

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们可以更快速，更方便的获取到网页上的内容和我们想要的数据。

文章目录

前言

（一）什么是Scrapy

（二）基本功能

（三）基本架构

（四）Scrapy框架的基本使用

（1）创建爬虫的项目

（2）创建爬虫的文件

（3）执行爬虫文件

（五）Scrapy中response的属性和方法

1.获取响应的字符串

2.获取二进制数据

3.利用xpath获取内容

4.获取seletor对象的属性值

5.获取seletor列表的第一个数据

前言

现在我们进入一个框架的学习，利用好这个框架，我们可以更快速，更方便的获取到网页上的内容和我们想要的数据。这个框架就是Scrapy框架。

（一）什么是Scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

（二）基本功能

Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架，它可以应用在广泛领域：Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

（三）基本架构

下面是scrapy框架的官方架构图。绿色箭头为数据流向。

（四）Scrapy框架的基本使用

当我们用scrapy框架创建一个项目的时候我们都需要在控制台（终端）输入命令来创建/执行一个项目或者一个爬虫文件。

（1）创建爬虫的项目

在终端输入创建项目的指令

（2）创建爬虫的文件

这里需要在spiders文件夹中创建爬虫文件，所以在创建爬虫文件前需要将目录转换到spiders目录下 随后创建爬虫文件 实例：

（3）执行爬虫文件

同样，运行爬虫文件时，也是需要在终端上输入指令的实例：注：在执行爬虫文件的时候，存在robot协议即君子协议。每个网站都制定了君子协议，使得不能让其他网站爬取网页数据，因此我们需要在配置文件中将robot协议注释掉才可以获得网页内容。

【安全合规】python爬虫从0到1-Scrapy框架的介绍

文章目录

前言

（一）什么是Scrapy

（二）基本功能

（三）基本架构

（四）Scrapy框架的基本使用

（1）创建爬虫的项目

（2）创建爬虫的文件

（3）执行爬虫文件

（五）Scrapy中response的属性和方法

1.获取响应的字符串 2.获取二进制数据 3.利用xpath获取内容

4.获取seletor对象的属性值

5.获取seletor列表的第一个数据

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【安全合规】python爬虫从0到1-Scrapy框架的介绍

文章目录

前言

（一）什么是Scrapy

（二）基本功能

（三）基本架构

（四）Scrapy框架的基本使用

（1）创建爬虫的项目

（2）创建爬虫的文件

（3）执行爬虫文件

（五）Scrapy中response的属性和方法

1.获取响应的字符串 2.获取二进制数据 3.利用xpath获取内容

4.获取seletor对象的属性值

5.获取seletor列表的第一个数据

热门文章

最新文章

相关课程

相关电子书

推荐镜像