手把手教你如何新建scrapy爬虫框架的第一个项目（下）-阿里云开发者社区

手把手教你如何新建scrapy爬虫框架的第一个项目（下）

2019-02-24 1255

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前几天小编带大家学会了如何新建scrapy爬虫框架的第一个项目（上），今天我们进一步深入的了解Scrapy爬虫项目创建，这里以伯乐在线网站的所有文章页为例进行说明。在我们创建好Scrapy爬虫项目之后，会得到上图中的提示，大意是让我们直接根据模板进行创建Scrapy项目。

前几天小编带大家学会了如何新建scrapy爬虫框架的第一个项目（上），今天我们进一步深入的了解Scrapy爬虫项目创建，这里以伯乐在线网站的所有文章页为例进行说明。

在我们创建好Scrapy爬虫项目之后，会得到上图中的提示，大意是让我们直接根据模板进行创建Scrapy项目。根据提示，我们首先运行“cd article”命令，意思是打开或者进入到article文件夹下，尔后执行命令“scrapy genspider jobbole blog.jobbole.com”，代表通过Scrapy中自带的basic模板进行创建Scrapy项目，如下图所示。

根据提示，该模板创建的位置为article.spiders.jobbole，此时再次输入tree /f命令可以查看到除了之前创建Scrapy爬虫项目的基础文件之外，在spiders文件夹下确实是多了一个jobbole.py文件，如下图所示。

当然了，爬虫模板不一定非得用Scrapy爬虫项目自带的模板，也可以自定义的进行创建，但是基本上Scrapy提供的模板是足够使用的了。

接下来，将整个爬虫项目导入到Pycharm中去，点击左上方“file”à“open”，找到爬虫项目创建的文件夹，点击确认即可。

如果在Pycharm中的spiders文件夹下看不到jobbole.py这个文件的话，则先选中spiders文件夹，尔后右键，点击“Synchronize spider”，代表与spiders文件夹进行同步的意思，尔后便可以看到jobbole.py就会被加载出来。

点击jobbole.py文件进行查看内容，如下图所示。可以看到该文件已经默认的填充了部分Python代码，其实是从源模板中进行复制创建的。

可以看到该文件中有当前Scrapy爬虫项目的名字name，Scrapy爬虫项目所允许的域名范围allowed_domains，以及Scrapy爬虫项目的起始URL，即start_urls。

接下来最后检查一下该项目的Python解释器，点击Pycharm的setting，然后输入“interpreter”，找到解释器所在的位置，如下图所示。

如果“Project Interpreter”显示出来的解释器不是当前项目下的虚拟环境，则点击“Project Interpreter”的右侧的设置按钮，如下图所示。

然后点击“Add local”，如下图所示。

找到该项目对应的虚拟环境Python解释器，进行添加即可，如下图所示。

至此，Scrapy爬虫虚拟环境创建、Scrapy爬虫项目的创建以及Scrapy爬虫项目导入到Pycharm中以及解释器的配置已经完成，接下来我们要开始写入爬虫逻辑，以及数据提取等，敬请期待~~

手把手教你如何新建scrapy爬虫框架的第一个项目（下）

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

手把手教你如何新建scrapy爬虫框架的第一个项目（下）

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

相关实验场景