【安全合规】python爬虫从0到1-Scrapy框架的介绍

简介: 我们可以更快速,更方便的获取到网页上的内容和我们想要的数据。

文章目录

前言

(一)什么是Scrapy

(二)基本功能

(三)基本架构

(四)Scrapy框架的基本使用

(1)创建爬虫的项目

(2)创建爬虫的文件

(3)执行爬虫文件

(五)Scrapy中response的属性和方法

1.获取响应的字符串

2.获取二进制数据

3.利用xpath获取内容

4.获取seletor对象的属性值

5.获取seletor列表的第一个数据

前言

现在我们进入一个框架的学习,利用好这个框架,我们可以更快速,更方便的获取到网页上的内容和我们想要的数据。这个框架就是Scrapy框架。


(一)什么是Scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。


(二)基本功能

Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架,它可以应用在广泛领域:Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。


(三)基本架构


下面是scrapy框架的官方架构图。绿色箭头为数据流向。image.pngimage.png

(四)Scrapy框架的基本使用

当我们用scrapy框架创建一个项目的时候我们都需要在控制台(终端)输入命令来创建/执行一个项目或者一个爬虫文件。

(1)创建爬虫的项目

在终端输入创建项目的指令image.pngimage.png

(2)创建爬虫的文件

这里需要在spiders文件夹中创建爬虫文件,所以在创建爬虫文件前需要将目录转换到spiders目录下image.png随后创建爬虫文件image.png实例:image.png

(3)执行爬虫文件

同样,运行爬虫文件时,也是需要在终端上输入指令的image.png实例:image.png注:在执行爬虫文件的时候,存在robot协议即君子协议。每个网站都制定了君子协议,使得不能让其他网站爬取网页数据,因此我们需要在配置文件中将robot协议注释掉才可以获得网页内容。image.png

(五)Scrapy中response的属性和方法

1.获取响应的字符串image.png2.获取二进制数据image.png3.利用xpath获取内容

直接利用xpath语法来解析response中的内容image.png

4.获取seletor对象的属性值image.png

5.获取seletor列表的第一个数据

image.png

相关文章
|
2月前
|
数据采集 Web App开发 数据可视化
Python爬虫分析B站番剧播放量趋势:从数据采集到可视化分析
Python爬虫分析B站番剧播放量趋势:从数据采集到可视化分析b
|
26天前
|
数据采集 数据挖掘 测试技术
Go与Python爬虫实战对比:从开发效率到性能瓶颈的深度解析
本文对比了Python与Go在爬虫开发中的特点。Python凭借Scrapy等框架在开发效率和易用性上占优,适合快速开发与中小型项目;而Go凭借高并发和高性能优势,适用于大规模、长期运行的爬虫服务。文章通过代码示例和性能测试,分析了两者在并发能力、错误处理、部署维护等方面的差异,并探讨了未来融合发展的趋势。
101 0
|
2月前
|
数据采集 存储 C++
Python异步爬虫(aiohttp)加速微信公众号图片下载
Python异步爬虫(aiohttp)加速微信公众号图片下载
|
19天前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
1月前
|
数据采集 存储 Web App开发
Python爬虫库性能与选型实战指南:从需求到落地的全链路解析
本文深入解析Python爬虫库的性能与选型策略,涵盖需求分析、技术评估与实战案例,助你构建高效稳定的数据采集系统。
194 0
|
17天前
|
数据采集 监控 调度
应对频率限制:设计智能延迟的微信读书Python爬虫
应对频率限制:设计智能延迟的微信读书Python爬虫
|
20天前
|
数据采集 机器学习/深度学习 数据可视化
Python量化交易:结合爬虫与TA-Lib技术指标分析
Python量化交易:结合爬虫与TA-Lib技术指标分析
|
21天前
|
数据采集 存储 XML
Python爬虫XPath实战:电商商品ID的精准抓取策略
Python爬虫XPath实战:电商商品ID的精准抓取策略
|
1月前
|
API 数据安全/隐私保护 Python
拼多多批量上架软件, 电商一键上货发布工具,python电商框架分享
多线程批量上传架构,支持并发处理商品数据 完整的拼多多API签名和token管理机制
|
2月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合

推荐镜像

更多