易车网实战+【保姆级】:Feapder爬虫框架入门教程

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 易车网实战+【保姆级】:Feapder爬虫框架入门教程今天辰哥带大家来看看一个爬虫框架:**Feapder**,看完本文之后,别再说你不会Feapder了。本文辰哥将带你了解什么是Feapder?、如何去创建一个Feapder入门项目(实战:采集易车网轿车数据)。

今天辰哥带大家来看看一个爬虫框架:Feapder,看完本文之后,别再说你不会Feapder了。本文辰哥将带你了解什么是Feapder?、如何去创建一个Feapder入门项目(实战:采集易车网轿车数据)。

其中实战部分包括爬虫数据和存储到Mysql数据库,让大家能够感受一下,数据从网页经框架Feapder采集后,直接存储到数据库的过程。

之前我们已经用了Scrapy爬虫框架来爬取数据(以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』),今天来试试使用Feapder写爬虫是一种怎么样的体验请往下看!!!!!

01、Feapder框架

1.Feapder框架介绍

Feapder 是一款上手简单、功能强大、快速、轻量级的爬虫框架的Python爬虫框架。支持轻量爬虫、分布式爬虫、批次爬虫、爬虫集成,以及完善的爬虫报警机制。

具体feapder项目结构每一块的功能是什么?怎么样用?接着往下看,下面的实战中有详细的讲解。

2.Feapder的安装

feapder的安装很简单,通过下面的命令安装即可!

pip install feapder

出现下面的界面说明feapder成功安装!

feapder的介绍和环境安装就完成了,下面开始真正去使用fepader来爬取易车网数据,并存储到mysql数据库。

02、实战

1.新建feapder项目

通过下方的命令去创建一个名为:chenge\_yc\_spider的的爬虫项目

feapder create -p chenge_yc_spider

创建好之后,我们看一下项目结构

2.编写爬虫

在终端中进入到项目(chenge\_yc\_spider)下的spiders文件夹下,通过下面的命令创建一个目标爬虫文件(target_spider)

feapder create -s  target_spider

此刻项目结构如下:

编辑target_spider.py文件

这里实战案例:采集易车网数据。直接执行这个py文件,先看一下请求有没有没问题。

可以看到请求返回响应200,说明请求成功。下一步我们开始解析网页数据并设置爬虫框架自动采集下一页数据。

3.解析网页

网页结果(待采集的数据)如下:

通过查看源代码,分析数据所对应的网页标签

通过网页源码可以分析,汽车列表数据都是在class为search-result-list下。每一个class为search-result-list-item表示一条数据,每一条数据下都有汽车对应的属性(如:汽车名称、价格等)

这里仅作为实战案例去学习feapder爬虫框架,因此这里就只爬取汽车名称、价格;这两个字段属性。

4.创建Mysql数据库

采集的数据需要存储到数据库(mysql)中,因此我们先来定义好数据库和表

这里辰哥创建了一个数据库:chenge_yc,并在里面建了应该表:t_yc,其表结构如上图,这里如果不不熟悉mysql如何建立数据库表的可以参考辰哥的这篇文章(实战|教你用Python玩转Mysql

在爬虫项目中配置数据库,打开根目录下的setting.py文件

可以看到feapder支持多种数据库的对接,咱们这里使用的是mysql,其配置如下:

接着在终端下,进入到根目录下的items文件夹,执行下面命令生成数据库表对于的item

feapder create -i t_yc

请注意:命令中的t_yc是对于数据库表中的t_yc

最后生成 t\_yc\_item.py 文件:

里面的name和price则是对应数据库中的字段。

5.提取网页字段

上面已经获取到网页源码,也知道数据所在的标签,现在开始编写代码进行解析。

执行结果:

可以看到数据已经成功提出来,下一步将这些数据存储到数据库中。

6.存储到数据库

import feapder

引入刚刚的 t\_yc\_item.py,并创建对象TycItem。把爬取的name和price初始化到对象中。最后yieId TycItem,实际上就直接存储到数据库了(因为数据库表和item是对应连接关系,这样就直接存储到数据库了)。

这太方便了,连sql语句都省了,6666666666

执行结果如下:

查看数据库:

同样可以看到数据直接就存储到数据库中。大功告成!!!!!!

03、小结

相信看到这里的你已经完完全全掌握了 爬虫框架: Feapder ,你不仅知道了什么是feapder,同时还学会了如何使用feapder。

此外实战部分包括 爬虫数据和存储到Mysql数据库,让大家能够感受一下,数据从网页经框架Feapder采集后,直接存储到数据库的过程。

一定要 动手尝试 一定要 动手尝试 一定要 动手尝试!

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6天前
|
监控 安全 数据可视化
情报搜集神器:Spiderfoot 保姆级教程
情报搜集神器:Spiderfoot 保姆级教程
|
6天前
|
存储 JSON 数据格式
Flask 3 保姆级教程(一):快速上手
Flask 3 保姆级教程(一):快速上手
|
6天前
|
数据采集 Python 存储
python爬虫基础
python爬虫基础
|
6天前
|
缓存 运维 Linux
保姆级python项目离线部署服务器教程只需这一篇就够了(建议收藏)
这篇文章提供了详尽的Python项目在离线Linux(CentOS)服务器上的部署教程。作者首先介绍了环境背景,强调了无网络环境和使用有网络的CentOS虚拟机准备安装包的重要性。教程分为两部分:外网环境搭建和内网离线安装。在外网环境中,包括下载Python 3.9.0安装包、传输至服务器、安装依赖包,并使用pip3下载项目所需依赖。内网安装则涉及依赖包的复制和Python环境的同样步骤。最后,作者分享了运行项目的命令,并总结了离线安装的整个流程,提醒读者注意可能出现的问题。
保姆级python项目离线部署服务器教程只需这一篇就够了(建议收藏)
|
6天前
|
存储 编译器 程序员
【C++入门篇】保姆级教程篇【中】
【C++入门篇】保姆级教程篇【中】
|
6天前
|
安全 编译器 程序员
【C++入门篇】保姆级教程篇【上】
【C++入门篇】保姆级教程篇【上】
|
6天前
|
机器学习/深度学习 自然语言处理 API
有一点python基础,想玩大模型,不知从何入手。快速入门。
有一点python基础,想玩大模型,不知从何入手。快速入门。
315 0
|
5月前
|
编译器 C语言 C++
【C++入门篇】保姆级教程篇【下】
【C++入门篇】保姆级教程篇【下】
|
8月前
|
关系型数据库 Java 数据库连接
MyBatus-Plus保姆级快速上手教程
MyBatus-Plus保姆级快速上手教程
44 0
|
JavaScript 前端开发 Shell
快速搭建个人博客——保姆级教程 上
快速搭建个人博客——保姆级教程
226 0
快速搭建个人博客——保姆级教程 上