Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

简介: Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

目前各大新闻网站很多,网站上的消息也是各式各样,本项目通过建立支持向量机分类模型进行新闻文本分类。

本项目使用SVC算法来解决分类问题。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

新闻文本数据包含四类新闻,分别用0,1,2,3 表示;数据集包含训练集和测试集。

数据详情如下(部分展示):

image.png

image.png

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

image.png

关键代码:

image.png

3.2 统计每种新闻类型的数量

使用Pandas工具的grougby()方法统计每种新闻类型的数量:

image.png

从图中可以看到,类别为0的有987条数据,类别为1的有1436条数据,类别为2的有790条数据,类别为3的有263条数据。

4.探索性数据分析

4.1 词频柱状图

image.png

从图中可以看到,出现此频率最多的是:评论、中国、足球、体育等词。

4.2 词云图

image.png

通过上图可以看到,分词出现频率比较高是评论、皮肤、女性、中国、新浪、腾讯等,其中一些分词可以根据具体业务需要放入停用词中。

 

5.特征工程

5.1 文本向量化

image.png

上图中,括号内的代表文本行和分词索引,后面的代表词频逆文档频率。

关键代码:

image.png

 

5.2 构建特征和标签与数据集拆分

关键代码如下:

image.png

 

 

6.构建支持向量机分类模型

主要使用SVC算法,用于目标分类。

6.1 默认参数模型构建

image.png

从上图可以看到,支持向量机分类模型的准确率为0.9118,,F1分值为0.9024,默认参数构建的模型效果不错。

关键代码:

image.png

6.2 模型调优:应用网格搜索寻找最优参数值

使用网格搜索算法来寻找最优的参数值:

image.png

从上图可以看到,C参数最优值为10,gamma参数最优值为0.1

 

关键参数代码:

image.png  

6.3 最优参数建模

 

 

编号

模型名称

参数

1

SVM分类模型

C=10

2

gamma=0.1

 

7.模型评估 

7.1评估指标及结果

评估指标主要包括准确率、查准率、召回率、F1分值等等。 

模型名称

指标名称

指标值

测试集

SVM分类模型

准确率

0.9059

查准率

0.9195

召回率

0.9059

F1分值

0.9055

从上表可以看出,SVM分类模型比较优秀,效果非常好。

7.2 查看是否过拟合

查看训练集和测试集的分数:

image.png

通过结果可以看到,训练集分数和测试集分数基本一致,说明未过拟合。

关键代码:

image.png

7.3 混淆矩阵

SVM分类模型混淆矩阵:

 

image.png

从上图可以看到,实际值为0预测不为0的有5个;实际值为1预测不为1的有5个;实际值为2预测不为2的有6个;实际值为3预测不为3的有0个;这些是预测错误的,和总的测试集样本相比,错误预测还是相比对少的,在可接受的范围内。

7.4 分类报告

SVM分类模型分类报告:

image.png

从上图可以看到,分类类型为0的F1分值为0.80;分类类型为1的F1分值为0.94;分类类型为2的F1分值为0.90;分类类型为3的F1分值为0.77;整个模型的准确率为0.91

8.结论与展望

综上所述,本项目采用了SVM分类模型,最终证明了我们提出的模型效果良好。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/101Ccg2mBJ4bSf7R0_Fn5sQ 
提取码:lybv
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
9月前
|
机器学习/深度学习 数据采集 数据挖掘
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
基于 GARCH -LSTM 模型的混合方法进行时间序列预测研究(Python代码实现)
310 2
|
8月前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
311 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
8月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
524 2
|
8月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
193 8
|
8月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
8月前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
870 2
|
8月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
8月前
|
机器学习/深度学习 运维 算法
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
817 0
|
11月前
|
存储 机器学习/深度学习 人工智能
稀疏矩阵存储模型比较与在Python中的实现方法探讨
本文探讨了稀疏矩阵的压缩存储模型及其在Python中的实现方法,涵盖COO、CSR、CSC等常见格式。通过`scipy.sparse`等工具,分析了稀疏矩阵在高效运算中的应用,如矩阵乘法和图结构分析。文章还结合实际场景(推荐系统、自然语言处理等),提供了优化建议及性能评估,并展望了稀疏计算与AI硬件协同的未来趋势。掌握稀疏矩阵技术,可显著提升大规模数据处理效率,为工程实践带来重要价值。
529 58
|
9月前
|
传感器 算法 定位技术
KF,EKF,IEKF 算法的基本原理并构建推导出四轮前驱自主移动机器人的运动学模型和观测模型(Matlab代码实现)
KF,EKF,IEKF 算法的基本原理并构建推导出四轮前驱自主移动机器人的运动学模型和观测模型(Matlab代码实现)
281 2

推荐镜像

更多