【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )

简介: 【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )

文章目录

I . 分类概念

II . 分类 ( 离散值 ) 和 预测 ( 连续值 )

III . 分类过程

IV . 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 )

V . 数据预处理

VI . 分类方法评价

VII . 分类算法举例

VIII . 有监督学习 和 无监督学习



I . 分类概念


1 . 数据挖掘任务分类 : 数据挖掘任务分为 模型挖掘 和 模式挖掘 , 其中 模型挖掘 包含 描述建模 和 预测建模 ;



2 . 分类任务类型 : 分类 属于 模型挖掘 任务 , 任务类型是 预测建模 类型 ;



3 . 预测建模 : 根据 已知的数据特征 , 预测未知的数据特征 ; 如 : 数据有 n 个变量 , 已知 n - 1 个变量的值 , 预测未知的那个变量的值 ;



4 . 预测建模 示例 : 根据顾客的 年龄 , 收入 , 是否是学生 , 信用等级 , 预测该顾客是否会购买电脑 ;




II . 分类 ( 离散值 ) 和 预测 ( 连续值 )


1 . 分类 ( 离散值 ) : 先构造出模型 , 然后使用该模型对未知样本进行 类别判定 ; 类别是固定的几个类 ;


分类使用场景 : 预测 离散数据 , 如 : 信用等级评估 , 疾病诊断 ;




2 . 预测 ( 回归 | 连续值 ) : 先构造出模型 , 然后使用该模型对未知样本的 某个值进行估计 ; 这个值是一个数值 ;


预测使用场景 : 预测 连续的数据 , 如电影票房 , 国家 GDP 等 ;




III . 分类过程


1 . 分类过程 : 分类分为 建立模型阶段 和 使用模型阶段 ;



2 . 建立模型 ( 学习 ) : 又叫学习阶段 , 训练阶段 ;



① 训练集 : 学习训练阶段使用的模型叫训练集 ;


② 模型表示形式 : 分类规则 , 决策树 , 数学公式 等 ;



3 . 使用模型 : 先测试模型 , 测试通过开始使用 ;



① 测试模型 : 测试模型的准确性 , 如果认可该准确性 , 就使用该模型对未知新数据进行分类 ;


② 测试集 : 使用 模型 对测试集数据进行分类 , 将分类结果与真实结果进行对比 ;


③ 准确率 : 使用模式分类的结果 , 与测试集真实数据 , 分类正确的比例是 准确率 ;


④ 测试集要求 : 测试集 与 训练集 不相关 ;




IV . 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 )


1 . 分类过程中使用的数据集 :



① 训练集 : 使用训练集训练 模型 ;


② 测试集 : 使用测试机验证 模型 的准确性 , 如果准确就使用该模型 , 如果不准确继续训练 ;


③ 新数据 : 使用模型 预测 新数据的未知字段的分类 ;


④ 相同点 : 三种数据集的格式是一样的 ;



2 . 有监督学习 : 分类属于有监督的学习 , 有监督学习必须有 训练模型阶段 和 测试模型阶段 , 最后才能使用模型 ;



3 . 已知数据 : 通常 训练集 与 测试集集 是一体的 , 本质是完全相同的 , 将数据随机分为 训练集 和 测试集 ;




V . 数据预处理


1 . 数据清洗 : 预处理数据 ;



① 删除 : 删除数据的噪音 ;


② 修补 : 修补缺失数据 , 使用常用值 , 平均值 , 统计学中的最大概率出现的值替代缺失数据 ;



2 . 相关分析 : 分类 类型的数据挖掘任务中 , 该步骤叫做 特征选择 ;


① 主要工作 : 筛选 模型 中使用的 属性 ( 特征值 ) , 屏蔽 冗余 或 不相关 的 属性 ( 特征值 ) ; 如 信用等级与人的星座无关 , 此类特征值就可以在模型中进行删除 ;


② 分类工作 : 数据有 n nn 个 属性 ( 特征 ) , 已知 n − 1 n-1n−1 个特征值 , 预测未知的那个特征值 ;


③ 模型复杂程度 : 选择使用哪些 属性 ( 特征 ) 值 进行预测 , 关系到模型的复杂程度 , 模型中使用的特征值个数越多 , 越复杂 ;


④ 特征工程 : 这里引入 特征工程 概念 , 特征处理的工作就是特征工程的核心 ;



3 . 数据转换 :



① 概括数据 : 将连续值离散化 , 如 100 分满分 , 低于 60 不及格 , 高于 60 及格 , 这样就将 0 ~ 100 的数值分成 及格 与 不及格两个特征 ;


② 数据规范 : 将数据规范化 , 规范单位 , 如身高有的使用 cm , 有的使用 m , 有的使用英尺 , 将数据单位都设置成统一单位 ;




VI . 分类方法评价


分类方法评价标准 :



① 准确性 : 保证性能的前提下 , 越准确越好 ;


② 速度 : 构造模型的速度 ( 训练 和 测试 时间 ) , 使用模型的速度 ;


③ 容错性 ( 鲁棒性 ) : 能处理数据中的噪音 , 和数据缺失等情况 ;


④ 伸缩性 : 内存中数据可以使用 , 磁盘中的数据也可以使用 ;


⑤ 交互性 : 模型解释性好 , 易于理解 ; 如深度学习中的神经元网络不易理解 , 被人称为炼金术 ;




VII . 分类算法举例


分类算法示例 :


① 决策树分类


② 贝叶斯分类


③ 支持向量机


④ 神经元网络


⑤ K 近邻分类




VIII . 有监督学习 和 无监督学习


1 . 有监督学习 : 明确地分为两个阶段 ; 训练模型阶段 , 使用训练集数据 ; 使用模型阶段 , 预测新数据某个特征 ;


有监督学习举例 : 分类过程 是典型的有监督学习过程 ;



2 . 无监督学习 : 没有训练阶段 和 预测阶段 的明显划分 ;


无监督学习举例 : 聚类分析 ;



3 . 半监督学习 : 介于 有监督学习 和 无监督学习之间 ;


目录
相关文章
|
5月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
275 0
|
8月前
|
测试技术 API 数据库
性能测试概念
**性能测试评估系统在负载下的表现,关注响应时间、吞吐量、并发用户数和资源利用率。关键指标包括RT、HPS、TPS、QPS、RPS等。并发数可由QPS和平均响应时间计算。提升压力的技术手段涉及多进程、多线程,各有优劣。P90、P95、P99等分位数用于描述数据分布,揭示不同负载场景下的系统性能。**
|
5月前
|
测试技术 网络安全
什么是软件测试? 软件测试都有什么岗位 ?软件测试和调试的区别? 软件测试和开发的区别? 一位优秀的测试人员应该具备哪些素质? 软件测试等相关概念入门篇
文章全面介绍了软件测试的基本概念、目的、岗位分类、与开发和调试的区别,并阐述了成为优秀测试人员应具备的素质和技能。
449 1
什么是软件测试? 软件测试都有什么岗位 ?软件测试和调试的区别? 软件测试和开发的区别? 一位优秀的测试人员应该具备哪些素质? 软件测试等相关概念入门篇
|
5月前
|
机器学习/深度学习 并行计算 数据可视化
目标分类笔记(二): 利用PaddleClas的框架来完成多标签分类任务(从数据准备到训练测试部署的完整流程)
这篇文章介绍了如何使用PaddleClas框架完成多标签分类任务,包括数据准备、环境搭建、模型训练、预测、评估等完整流程。
292 0
|
5月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
120 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
5月前
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
75 1
|
5月前
|
前端开发 测试技术 程序员
在工作中会涉及到的几个环境(概念补充) 办公环境、开发环境、测试环境、线下环境、线上环境/生产环境都是什么,他们之间的关系?
本文解释了在职场中可能会接触到的不同环境,包括办公环境、开发环境、测试环境和生产环境(线上环境),以及它们之间的关系和重要性。
173 1
|
7月前
|
存储 机器学习/深度学习 缓存
【数据挖掘】XGBoost面试题:与GBDT的区别?为什么使用泰勒二阶展开?为什么可以并行训练?为什么快?防止过拟合的方法?如何处理缺失值?
XGBoost与GBDT的区别、XGBoost使用泰勒二阶展开的原因、并行训练的原理、速度优势、防止过拟合的策略以及处理缺失值的方法,突出了XGBoost在提升模型性能和训练效率方面的一系列优化。
283 1
|
8月前
|
设计模式 测试技术 Python
《手把手教你》系列基础篇(九十二)-java+ selenium自动化测试-框架设计基础-POM设计模式简介(详解教程)
【7月更文挑战第10天】Page Object Model (POM)是Selenium自动化测试中的设计模式,用于提高代码的可读性和维护性。POM将每个页面表示为一个类,封装元素定位和交互操作,使得测试脚本与页面元素分离。当页面元素改变时,只需更新对应页面类,减少了脚本的重复工作和维护复杂度,有利于团队协作。POM通过创建页面对象,管理页面元素集合,将业务逻辑与元素定位解耦合,增强了代码的复用性。示例展示了不使用POM时,脚本直接混杂了元素定位和业务逻辑,而POM则能解决这一问题。
105 6
|
7月前
|
Kubernetes 监控 Java
发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
951 0

热门文章

最新文章

  • 1
    小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
  • 2
    3天功能开发→3小时:通义灵码2.0+DEEPSEEK实测报告,单元测试生成准确率92%的秘密
  • 3
    Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
  • 4
    【01】噩梦终结flutter配安卓android鸿蒙harmonyOS 以及next调试环境配鸿蒙和ios真机调试环境-flutter项目安卓环境配置-gradle-agp-ndkVersion模拟器运行真机测试环境-本地环境搭建-如何快速搭建android本地运行环境-优雅草卓伊凡-很多人在这步就被难倒了
  • 5
    基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证
  • 6
    大前端之前端开发接口测试工具postman的使用方法-简单get接口请求测试的使用方法-简单教学一看就会-以实际例子来说明-优雅草卓伊凡
  • 7
    「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
  • 8
    用户说 | 通义灵码2.0,跨语言编码+自动生成单元测试+集成DeepSeek模型且免费使用
  • 9
    阿里云零门槛、轻松部署您的专属 DeepSeek模型体验测试
  • 10
    以项目登录接口为例-大前端之开发postman请求接口带token的请求测试-前端开发必学之一-如果要学会联调接口而不是纯写静态前端页面-这个是必学-本文以优雅草蜻蜓Q系统API为实践来演示我们如何带token请求接口-优雅草卓伊凡