【安全合规】python爬虫从0到1-Scrapy框架的介绍

简介: 我们可以更快速,更方便的获取到网页上的内容和我们想要的数据。

文章目录

前言

(一)什么是Scrapy

(二)基本功能

(三)基本架构

(四)Scrapy框架的基本使用

(1)创建爬虫的项目

(2)创建爬虫的文件

(3)执行爬虫文件

(五)Scrapy中response的属性和方法

1.获取响应的字符串

2.获取二进制数据

3.利用xpath获取内容

4.获取seletor对象的属性值

5.获取seletor列表的第一个数据

前言

现在我们进入一个框架的学习,利用好这个框架,我们可以更快速,更方便的获取到网页上的内容和我们想要的数据。这个框架就是Scrapy框架。


(一)什么是Scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。


(二)基本功能

Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架,它可以应用在广泛领域:Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。


(三)基本架构


下面是scrapy框架的官方架构图。绿色箭头为数据流向。image.pngimage.png

(四)Scrapy框架的基本使用

当我们用scrapy框架创建一个项目的时候我们都需要在控制台(终端)输入命令来创建/执行一个项目或者一个爬虫文件。

(1)创建爬虫的项目

在终端输入创建项目的指令image.pngimage.png

(2)创建爬虫的文件

这里需要在spiders文件夹中创建爬虫文件,所以在创建爬虫文件前需要将目录转换到spiders目录下image.png随后创建爬虫文件image.png实例:image.png

(3)执行爬虫文件

同样,运行爬虫文件时,也是需要在终端上输入指令的image.png实例:image.png注:在执行爬虫文件的时候,存在robot协议即君子协议。每个网站都制定了君子协议,使得不能让其他网站爬取网页数据,因此我们需要在配置文件中将robot协议注释掉才可以获得网页内容。image.png

(五)Scrapy中response的属性和方法

1.获取响应的字符串image.png2.获取二进制数据image.png3.利用xpath获取内容

直接利用xpath语法来解析response中的内容image.png

4.获取seletor对象的属性值image.png

5.获取seletor列表的第一个数据

image.png

相关文章
|
1天前
|
Web App开发 设计模式 测试技术
python自动化测试实战 —— 自动化测试框架的实例
python自动化测试实战 —— 自动化测试框架的实例
4 0
|
1天前
|
监控 数据可视化 IDE
python自动化测试实战 —— 单元测试框架
python自动化测试实战 —— 单元测试框架
8 2
|
1天前
|
Java 测试技术 数据库连接
【如何学习Python自动化测试】—— Python 的 unittest 框架
【如何学习Python自动化测试】—— Python 的 unittest 框架
4 0
|
1天前
|
数据采集 Web App开发 数据处理
Lua vs. Python:哪个更适合构建稳定可靠的长期运行爬虫?
Lua vs. Python:哪个更适合构建稳定可靠的长期运行爬虫?
|
2天前
|
设计模式 开发框架 数据库
Python Web开发主要常用的框架
【5月更文挑战第12天】Python Web开发框架包括Django、Flask、Tornado和Pyramid。Django适用于复杂应用,提供ORM、模板引擎等全套功能;Flask轻量级,易于扩展,适合小型至中型项目;Tornado擅长处理高并发,支持异步和WebSockets;Pyramid灵活强大,可适配多种数据库和模板引擎,适用于各种规模项目。选择框架需依据项目需求和技术栈。
13 2
|
6天前
|
数据采集 NoSQL 中间件
python-scrapy框架(四)settings.py文件的用法详解实例
python-scrapy框架(四)settings.py文件的用法详解实例
10 0
|
6天前
|
存储 数据采集 数据库
python-scrapy框架(三)Pipeline文件的用法讲解
python-scrapy框架(三)Pipeline文件的用法讲解
8 0
|
6天前
|
存储 数据采集 JSON
python-scrapy框架(二)items文件夹的用法讲解
python-scrapy框架(二)items文件夹的用法讲解
11 0
|
6天前
|
数据采集 前端开发 中间件
python-scrapy框架(一)Spider文件夹的用法讲解
python-scrapy框架(一)Spider文件夹的用法讲解
31 0
|
7天前
|
数据采集 Web App开发 Java
Python 爬虫:Spring Boot 反爬虫的成功案例
Python 爬虫:Spring Boot 反爬虫的成功案例