手把手教你如何新建scrapy爬虫框架的第一个项目(上)

简介: 前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy还有Scrapy安装过程中常见的问题总结及其对应的解决方法感兴趣的小伙伴可以戳链接进去查看。关于Scrapy的介绍之前也在文章中提及过今天小编带大家进入Scrapy爬虫框架创建Scrapy爬虫框架的第一个项目具体过程如下所示。

前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy还有Scrapy安装过程中常见的问题总结及其对应的解决方法感兴趣的小伙伴可以戳链接进去查看。关于Scrapy的介绍之前也在文章中提及过今天小编带大家进入Scrapy爬虫框架创建Scrapy爬虫框架的第一个项目具体过程如下所示。


手把手教你如何新建scrapy爬虫框架的第一个项目上


1、进入虚拟环境不知道进入的环境的小伙伴可以戳这篇文章在Windows下如何创建指定的虚拟环境和在Windows下如何创建虚拟环境默认情况下。进入到环境之后可以通过“pip list”命令查看Scrapy是否安装成功如下图所示。


手把手教你如何新建scrapy爬虫框架的第一个项目上


可以看到Scrapy已经安装成功。

2、这里小编欲将Scrapy项目放到demo文件夹下所以先退回到上级目录中去如下图所示。


手把手教你如何新建scrapy爬虫框架的第一个项目上


3、尔后开始新建Scrapy项目输入创建Scrapy爬虫项目命令“scrapy startproject article”其中article是爬虫项目的名称可以自行更改的。输入创建命令之后稍等片刻系统会根据模板进行创建项目模板所在的目录是“D:pythonDemo8Septemberdemoscrapy_demoLibsite-packagesscrapy emplatesproject”与你的爬虫环境相关如下图所示等待项目创建完成。当然我们可以自定义爬虫模板不过目前来看Scrapy爬虫框架提供的模板够我们用的了我们能把Scrapy搞明白也就可以了。


手把手教你如何新建scrapy爬虫框架的第一个项目上


4、根据上图提示首先进入到article文件夹下输入命令“cd article”之后通过“dir”查看目录也可以通过“tree /f”生成文件目录的树形结构如下图所示可以很清晰的看到Scrapy创建命令生成的文件。


手把手教你如何新建scrapy爬虫框架的第一个项目上


顶层的article文件夹是项目名。

第二层中包含的是一个与项目名同名的文件夹article和一个文件scrapy.cfg这个与项目同名的文件夹article是一个模块所有的项目代码都在这个模块内添加而scrapy.cfg文件是整个Scrapy项目的配置文件。

第三层中有5个文件和一个文件夹其中__init__.py是个空文件作用是将其上级目录变成一个模块items.py是定义储对象的文件决定爬取哪些项目middlewares.py文件是中间件一般不用进行修改主要负责相关组件之间的请求与响应pipelines.py是管道文件决定爬取后的数据如何进行处理和存储settings.py是项目的设置文件设置项目管道数据的处理方法、爬虫频率、表名等spiders文件夹中放置的是爬虫主体文件用于实现爬虫逻辑和一个__init__.py空文件。

5、在Windows文件夹下也可以很清晰的看到新建的Scrapy文件如下图所示。


手把手教你如何新建scrapy爬虫框架的第一个项目上


6、当然也可以通过Pycharm导入项目的方式进行查看项目文件此时更加的清晰如下图所示。


手把手教你如何新建scrapy爬虫框架的第一个项目上


7、点击各个项目文件可以查看其中的内容其中settings.py文件的内容如下图所示其他的文件内容在此就不再赘述了。


手把手教你如何新建scrapy爬虫框架的第一个项目上


至此第一个Scrapy爬虫项目的创建及Scrapy爬虫项目中的文件解析介绍就先到这里了下一步开始进行Scrapy爬虫项目的进阶内容敬请期待~~

相关文章
|
7天前
|
数据采集 存储 JSON
Python爬虫开发:BeautifulSoup、Scrapy入门
在现代网络开发中,网络爬虫是一个非常重要的工具。它可以自动化地从网页中提取数据,并且可以用于各种用途,如数据收集、信息聚合和内容监控等。在Python中,有多个库可以用于爬虫开发,其中BeautifulSoup和Scrapy是两个非常流行的选择。本篇文章将详细介绍这两个库,并提供一个综合详细的例子,展示如何使用它们来进行网页数据爬取。
|
11天前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
|
11天前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
|
24天前
|
数据采集 存储 XML
高级网页爬虫开发:Scrapy和BeautifulSoup的深度整合
高级网页爬虫开发:Scrapy和BeautifulSoup的深度整合
|
21天前
|
数据采集 存储 中间件
高效数据抓取:Scrapy框架详解
高效数据抓取:Scrapy框架详解
|
11天前
|
数据采集 存储 XML
Scrapy框架实现数据采集的详细步骤
本文介绍了使用Scrapy框架从宁波大学经济学院网站爬取新闻或公告详情页内容的过程,包括创建Scrapy项目、编写爬虫规则、提取所需信息,并最终将数据存储到Excel文件中的方法和步骤。
Scrapy框架实现数据采集的详细步骤
|
1天前
|
数据采集 存储 中间件
Python进行网络爬虫:Scrapy框架的实践
【8月更文挑战第17天】网络爬虫是自动化程序,用于从互联网收集信息。Python凭借其丰富的库和框架成为构建爬虫的首选语言。Scrapy作为一款流行的开源框架,简化了爬虫开发过程。本文介绍如何使用Python和Scrapy构建简单爬虫:首先安装Scrapy,接着创建新项目并定义爬虫,指定起始URL和解析逻辑。运行爬虫可将数据保存为JSON文件或存储到数据库。此外,Scrapy支持高级功能如中间件定制、分布式爬取、动态页面渲染等。在实践中需遵循最佳规范,如尊重robots.txt协议、合理设置爬取速度等。通过本文,读者将掌握Scrapy基础并了解如何高效地进行网络数据采集。
20 6
|
7天前
|
存储 中间件 数据处理
深入解读 Scrapy 框架原理与源码
深入解读 Scrapy 框架原理与源码
16 1
|
9天前
|
数据采集 JavaScript 前端开发
爬虫库和框架
【8月更文挑战第10天】
18 3
|
15天前
|
数据采集 资源调度 JavaScript
Node.js 适合做高并发、I/O密集型项目、轻量级实时应用、前端构建工具、命令行工具以及网络爬虫和数据处理等项目
【8月更文挑战第4天】Node.js 适合做高并发、I/O密集型项目、轻量级实时应用、前端构建工具、命令行工具以及网络爬虫和数据处理等项目
30 5