Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

目前各大新闻网站很多,网站上的消息也是各式各样,本项目通过建立支持向量机分类模型进行新闻文本分类。

本项目使用SVC算法来解决分类问题。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

新闻文本数据包含四类新闻,分别用0,1,2,3 表示;数据集包含训练集和测试集。

数据详情如下(部分展示):

image.png

image.png

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

image.png

关键代码:

image.png

3.2 统计每种新闻类型的数量

使用Pandas工具的grougby()方法统计每种新闻类型的数量:

image.png

从图中可以看到,类别为0的有987条数据,类别为1的有1436条数据,类别为2的有790条数据,类别为3的有263条数据。

4.探索性数据分析

4.1 词频柱状图

image.png

从图中可以看到,出现此频率最多的是:评论、中国、足球、体育等词。

4.2 词云图

image.png

通过上图可以看到,分词出现频率比较高是评论、皮肤、女性、中国、新浪、腾讯等,其中一些分词可以根据具体业务需要放入停用词中。

 

5.特征工程

5.1 文本向量化

image.png

上图中,括号内的代表文本行和分词索引,后面的代表词频逆文档频率。

关键代码:

image.png

 

5.2 构建特征和标签与数据集拆分

关键代码如下:

image.png

 

 

6.构建支持向量机分类模型

主要使用SVC算法,用于目标分类。

6.1 默认参数模型构建

image.png

从上图可以看到,支持向量机分类模型的准确率为0.9118,,F1分值为0.9024,默认参数构建的模型效果不错。

关键代码:

image.png

6.2 模型调优:应用网格搜索寻找最优参数值

使用网格搜索算法来寻找最优的参数值:

image.png

从上图可以看到,C参数最优值为10,gamma参数最优值为0.1

 

关键参数代码:

image.png  

6.3 最优参数建模

 

 

编号

模型名称

参数

1

SVM分类模型

C=10

2

gamma=0.1

 

7.模型评估 

7.1评估指标及结果

评估指标主要包括准确率、查准率、召回率、F1分值等等。 

模型名称

指标名称

指标值

测试集

SVM分类模型

准确率

0.9059

查准率

0.9195

召回率

0.9059

F1分值

0.9055

从上表可以看出,SVM分类模型比较优秀,效果非常好。

7.2 查看是否过拟合

查看训练集和测试集的分数:

image.png

通过结果可以看到,训练集分数和测试集分数基本一致,说明未过拟合。

关键代码:

image.png

7.3 混淆矩阵

SVM分类模型混淆矩阵:

 

image.png

从上图可以看到,实际值为0预测不为0的有5个;实际值为1预测不为1的有5个;实际值为2预测不为2的有6个;实际值为3预测不为3的有0个;这些是预测错误的,和总的测试集样本相比,错误预测还是相比对少的,在可接受的范围内。

7.4 分类报告

SVM分类模型分类报告:

image.png

从上图可以看到,分类类型为0的F1分值为0.80;分类类型为1的F1分值为0.94;分类类型为2的F1分值为0.90;分类类型为3的F1分值为0.77;整个模型的准确率为0.91

8.结论与展望

综上所述,本项目采用了SVM分类模型,最终证明了我们提出的模型效果良好。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/101Ccg2mBJ4bSf7R0_Fn5sQ 
提取码:lybv
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】Python之人工智能应用篇——音频生成技术
音频生成是指根据所输入的数据合成对应的声音波形的过程,主要包括根据文本合成语音(text-to-speech)、进行不同语言之间的语音转换、根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。它涵盖了声音结构中的音素、音节、音位、语素等基本单位的预测和组合,通过频谱逼近或波形逼近的合成策略来实现音频的生成。 音频生成技术的发展主要依赖于深度学习模型,如循环神经网络(RNN)、长短时记忆网络(LSTM)、Transformer等。这些模型通过学习大量的音频数据,能够自动生成与人类发音相似甚至超越人类水平的音频内容。近年来,随着大规模预训练模型的流行,如GPT系列模型、BERT、T5等,
12 7
【深度学习】Python之人工智能应用篇——音频生成技术
|
11天前
|
数据可视化 前端开发 数据挖掘
【优秀python大屏】基于python flask的广州历史天气数据应用与可视化大屏
本文介绍了一个基于Python Flask框架的广州历史天气数据应用与可视化大屏系统,该系统通过数据采集、处理、分析和可视化技术,提供了丰富的气象数据展示和决策支持,帮助用户快速了解和应对气象变化。
【优秀python大屏】基于python flask的广州历史天气数据应用与可视化大屏
|
1天前
|
机器学习/深度学习 人工智能 算法
【深度学习】python之人工智能应用篇——图像生成技术(二)
图像生成是计算机视觉和计算机图形学领域的一个重要研究方向,它指的是通过计算机算法和技术生成或合成图像的过程。随着深度学习、生成模型等技术的发展,图像生成领域取得了显著的进步,并在多个应用场景中发挥着重要作用。
15 9
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
17 8
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇--代码生成技术
代码生成技术是人工智能与软件工程交叉领域的一项重要技术,它利用机器学习、自然语言处理和其他AI算法自动编写或辅助编写计算机程序代码。这一技术旨在提高编程效率、降低错误率,并帮助非专业开发者快速实现功能。以下是代码生成技术的概述及其典型应用场景。
14 6
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】python之人工智能应用篇--数字人生成技术
数字人生成技术是基于人工智能技术和计算机图形学技术创建的虚拟人物形象的技术。该技术能够模拟人类的外貌、声音、动作和交流能力,为多个领域带来创新的应用可能性。数字人的本质是将所有信息(数字和文字)通过数字处理(如计算机视觉、语音识别等)再进行表达的过程,形成具有人类形态和行为的数字产物。 数字人的生成涉及到多种技术,如3D重建技术,使用三维扫描仪扫描人的外观、五官等,并通过3D模型重建三维人;虚拟直播技术,使用计算机技术生成人物或实体,并且可以实时直播、录制;数字人体数据集技术,利用数据构建数字人模型以及训练虚拟现实引擎等
9 4
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】python之人工智能应用篇——视频生成技术
视频生成技术是一种基于深度学习和机器学习的先进技术,它使得计算机能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的、高保真的视频内容。这种技术主要依赖于深度学习模型,如生成对抗网络(GAN)、自回归模型(Auto-regressive Model)、扩散模型(Diffusion Model)等。其中,GAN由两个神经网络组成:一个生成器用于生成逼真的图像或视频,另一个判别器用于判断生成的图像或视频是否真实。通过不断的对抗学习,生成器和判别器共同优化,以产生更高质量的视频。
9 2
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇——3D生成技术
在Python中,人工智能(AI)与3D生成技术的结合可以体现在多个方面,比如使用AI算法来优化3D模型的生成、通过机器学习来预测3D模型的属性,或者利用深度学习来生成全新的3D内容。然而,直接通过AI生成完整的3D模型(如从文本描述中生成)仍然是一个活跃的研究领域。 3D生成技术是一种通过计算机程序从二维图像或文本描述自动创建三维模型的过程。这一技术在近年来得到了飞速的发展,不仅为游戏、动画和影视行业带来了革命性的变革,还在虚拟现实、增强现实以及工业设计等多个领域展现出了巨大的应用潜力
6 2
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇--游戏生成技术
游戏生成技术,特别是生成式人工智能(Generative Artificial Intelligence, 简称Generative AI),正逐步革新游戏开发的多个层面,从内容创作到体验设计。这些技术主要利用机器学习、深度学习以及程序化内容生成(Procedural Content Generation, PCG)来自动创造游戏内的各种元素,显著提高了开发效率、丰富了游戏内容并增强了玩家体验。以下是生成式AI在游戏开发中的几个关键应用场景概述
6 2
|
6天前
|
数据采集 机器学习/深度学习 人工智能
Python的应用领域
【8月更文挑战第13天】Python的应用领域
17 6