Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

2024-07-10 950

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

目前各大新闻网站很多，网站上的消息也是各式各样，本项目通过建立支持向量机分类模型进行新闻文本分类。

本项目使用SVC算法来解决分类问题。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：

新闻文本数据包含四类新闻，分别用0，1，2，3 表示；数据集包含训练集和测试集。

数据详情如下(部分展示)：

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据：

关键代码：

3.2 统计每种新闻类型的数量

使用Pandas工具的grougby()方法统计每种新闻类型的数量：

从图中可以看到，类别为0的有987条数据，类别为1的有1436条数据，类别为2的有790条数据，类别为3的有263条数据。

4.探索性数据分析

4.1 词频柱状图

从图中可以看到，出现此频率最多的是：评论、中国、足球、体育等词。

4.2 词云图

通过上图可以看到，分词出现频率比较高是评论、皮肤、女性、中国、新浪、腾讯等，其中一些分词可以根据具体业务需要放入停用词中。

5.特征工程

5.1 文本向量化

上图中，括号内的代表文本行和分词索引，后面的代表词频逆文档频率。

关键代码：

5.2 构建特征和标签与数据集拆分

关键代码如下：

6.构建支持向量机分类模型

主要使用SVC算法，用于目标分类。

6.1 默认参数模型构建

从上图可以看到，支持向量机分类模型的准确率为0.9118，，F1分值为0.9024,默认参数构建的模型效果不错。

关键代码：

6.2 模型调优：应用网格搜索寻找最优参数值

使用网格搜索算法来寻找最优的参数值：

从上图可以看到，C参数最优值为10，gamma参数最优值为0.1。

关键参数代码：

6.3 最优参数建模

编号	模型名称	参数
1	SVM分类模型	C=10
2	SVM分类模型	gamma=0.1

7.模型评估

7.1评估指标及结果

评估指标主要包括准确率、查准率、召回率、F1分值等等。

模型名称	指标名称	指标值
测试集
SVM分类模型	准确率	0.9059
	查准率	0.9195
	召回率	0.9059
	F1分值	0.9055

从上表可以看出，SVM分类模型比较优秀，效果非常好。

7.2 查看是否过拟合

查看训练集和测试集的分数：

通过结果可以看到，训练集分数和测试集分数基本一致，说明未过拟合。

关键代码：

7.3 混淆矩阵

SVM分类模型混淆矩阵：

从上图可以看到，实际值为0预测不为0的有5个；实际值为1预测不为1的有5个；实际值为2预测不为2的有6个；实际值为3预测不为3的有0个；这些是预测错误的，和总的测试集样本相比，错误预测还是相比对少的，在可接受的范围内。

7.4 分类报告

SVM分类模型分类报告：

从上图可以看到，分类类型为0的F1分值为0.80；分类类型为1的F1分值为0.94；分类类型为2的F1分值为0.90；分类类型为3的F1分值为0.77；整个模型的准确率为0.91。

8.结论与展望

综上所述，本项目采用了SVM分类模型，最终证明了我们提出的模型效果良好。

# 本次机器学习项目实战所需的资料，项目资源如下：
 
# 项目说明：
 
# 获取方式一：
 
# 项目实战合集导航：
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二：
 
链接：https://pan.baidu.com/s/101Ccg2mBJ4bSf7R0_Fn5sQ 
提取码：lybv

Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

1.项目背景

2.数据获取

3.数据预处理

3.1 用Pandas工具查看数据

3.2 统计每种新闻类型的数量

4.探索性数据分析

4.1 词频柱状图

4.2 词云图

5.特征工程

5.1 文本向量化

5.2 构建特征和标签与数据集拆分

6.构建支持向量机分类模型

6.1 默认参数模型构建

6.2 模型调优：应用网格搜索寻找最优参数值

6.3 最优参数建模

7.模型评估

7.1评估指标及结果

7.2 查看是否过拟合

7.3 混淆矩阵

7.4 分类报告

8.结论与展望

人工智能平台PAI

热门文章

最新文章

相关课程

相关电子书

推荐镜像