数据挖掘2.5——分类 知识点整理

简介: 数据挖掘2.5——分类 知识点整理

1.基本概念

分类

找出描述和区分数据类或概念的模型, 以便能够使用模型预测类标号未知的对象的类标号。

概念区分

■ 分类与预测

• 分类是预测分类( 离散、 无序) 标号;

• 预测建立连续值函数模型;

■ 分类与聚类

• 分类是有监督学习, 提供了训练元组的类标号;

• 聚类是无监督学习, 不依赖有类标号的训练实例;

2.描述分类的一般过程

■ 学习阶段

• 建立描述预先定义的数据类或概念集的分类器

• 训练集提供了每个训练元组的类标号, 分类的学习过程,也称为监督学习 (supervised learning)

■ 分类阶段

• 使用定义好的分类器进行分类的过程

3.掌握朴素贝叶斯分类原理

4.决策树分类

决策树算法:

  • Hunt算法
  • 信息增益 Information gain(ID3)
  • 增益比率 Gain ration (ID3,C4.5)
  • 基尼指数—Gini index (SLIQ, SPRINT)

4.1 Hunt算法

• 贪心策略(局部最优)构建决策树

• 决策树归纳的设计问题

  • 如何分裂训练记录?
    怎样为不同类型的属性指定测试条件
    怎样评估每种测试条件
  • 如何停止分裂过程?

5.模型的评价

5.1 准确率的局限

■ 考虑一个二分类问题

  • 0类的实例数 = 9990
  • 1类的实例数 = 10

■ 如果模型预测每个实例为0类, 则准确率为

  • 准确率是误导
  • 模型不能正确预测任何 而在疾病检测中,1类更需要被关心

5.2 其他度量

1.混淆矩阵

第一个字母T对应预测正确,F预测错误

第二个字母P对应真实正例,N真实反例

  • 真阳历TP, 真阳性(True positive rate,TPR) 或灵敏度(sensitivity) 、 查全率(recall)
    TPR= TP/(TP+ FN)
  • 真阴历TN, 真阴性(True negative rate, TNR) 或特指度 (specificity)
    TNR= TN/(TN+ FP)
  • 假阳历FP, 假阳性(False positive rate,FPR) 或误报率
    FPR = FP/(TN + FP)
  • 假阴历FN,假阴性(False negative rate, FNR ) ,漏报率(与查全率此消彼长 )
    FNR = FN/(TP + FN)

2.广泛使用

召回率(查全率,recall):所有真实正例中

精确率(查准率,precision):所有预测正例中

实例

5.3 ROC曲线

■ 前面分类器性能评价的局限性:分类器预测结果为离散的1或者0

■ 朴素贝叶斯输出 p(|x y)=

■ 其他分类器输出是一个连续的概率值,且同我们仅仅关系“1” 类别的概率

解决方法: 连续的值离散化

导致的问题: 离散阈值难以确定

接收者操作特征曲线(Receiver Operating Characteristic Curve, 或者叫ROC曲线)是一种坐标图式的分析工具, 用于

  • (1)选择最佳的分类模型、 舍弃次佳的模型。
  • (2)在同一模型中设定最佳阈值。

■ ROC曲线下方的区域称为AUC

做法

  • 首先利用分类器计算每个数据记录的后验概率 P(+|A)
  • 将这些数据记录对应的 P(+|A)从高到低排列(如下表):
  • 由低到高,对于每个P(+|A)值(threshold, 阈值),把对应的记录以及那些值高于或等于阈值指派为阳性类positive, 把那些低于阈值指派为阴性类negative
  • 统计TP,FP,TN,FN
  • 计算TPR = TP/(TP+FN)和
    FPR = FP/(FP+ TN)
  • 绘出诸点(FPR, TPR)并连接它们

5.4 过拟合与欠拟合

■ 分类模型的误差大致分为两种:

  • 训练误差: 是在训练记录上误分类样本比例
  • 泛化误差: 是模型在未知记录上的期望误差

■ 一个好的分类模型不仅要能够很好的拟合训练数据, 而且对未知样本也要能准确分类。

■ 换句话说, 一个好的分类模型必须具有低训练误差和低泛化误差。

■ 当训练数据拟合太好的模型(较低训练误差) , 其泛化误差可能比具有较高训练误差的模型高, 这种情况成为模型过分拟合。

数据预处理—>模型训练—>模型调整—>对新数据分类—>模型评价

实例

以决策树算法为例:

• 当决策树很小时,训练和检验误差都很大,这种情况称为模型拟合不足。出现拟合不足的原因是模型尚未学习到数据的真实结构。

• 随着决策树中结点数的增加,模型的训练误差和泛化误差都会随之下降。

• 当树的规模变得太大时,即使训练误差还在继续降低,但泛化误差开始增大,导致模型过分拟合。

导致过拟合的原因

• 训练集规模太大

• 训练集中存在大量噪音数据

• 训练集规模太小, 训练模型过于复杂

6.基于规则的分类

目录
相关文章
|
机器学习/深度学习 算法 数据挖掘
数据挖掘2.6——聚类 知识点整理
数据挖掘2.6——聚类 知识点整理
121 0
|
存储 算法 数据挖掘
数据挖掘2.4——关联规则挖掘 知识点整理
数据挖掘2.4——关联规则挖掘 知识点整理
224 0
|
数据采集 存储 自然语言处理
数据挖掘2.3——数据预处理 知识点整理
数据挖掘2.3——数据预处理 知识点整理
159 0
|
自然语言处理 数据可视化 搜索推荐
数据挖掘2.2——认识数据 知识点整理
数据挖掘2.2——认识数据 知识点整理
155 0
|
机器学习/深度学习 数据采集 存储
数据挖掘2.1——绪论 知识点整理
数据挖掘2.1——绪论 知识点整理
110 0
|
机器学习/深度学习 算法 大数据
大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 线性回归分析算法)
原文:(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 线性回归分析算法) 前言 此篇为微软系列挖掘算法的最后一篇了,完整该篇之后,微软在商业智能这块提供的一系列挖掘算法我们就算总结完成了,在此系列中涵盖了微软在商业智能(BI)模块系统所能提供的所有挖掘算法,当然此框架完全可以自己扩充,可以自定义挖掘算法,不过目前此系列中还不涉及,只涉及微软提供的算法,当然这些算法已经基本涵盖大部分的商业数据挖掘的应用场景,也就是说熟练了这些算法大部分的应用场景都能游刃有余的解决,每篇算法总结包含:算法原理、算法特点、应用场景以及具体的操作详细步骤。
1464 0
|
机器学习/深度学习 算法 大数据
大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 神经网络分析算法原理篇)
原文:(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 神经网络分析算法原理篇) 前言 本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载,有兴趣...
1110 0
|
算法 大数据 数据挖掘
大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 关联规则分析算法)
原文:(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 关联规则分析算法) 前言 本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法、Microsoft 时序算法,后续还补充了二篇结果预测篇、Microsoft 时序算法——结果预算+下期彩票预测篇,看样子有必要整理一篇目录了,不同的算法应用的场景也是不同的,每篇文章都有它自己的应用场景介绍,有兴趣的同学可以参阅。
1082 0
|
算法 大数据 数据挖掘
大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 顺序分析和聚类分析算法)
原文:(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 顺序分析和聚类分析算法) 前言 本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载,有兴趣的童鞋可以点击查阅,本篇我们将要总结的算法为:Microsoft顺序分析和聚类分析算法,此算法为上一篇中的关联规则分析算法的一个延伸,为关联规则分析算法所形成的种类进行了更细粒度的挖掘,挖掘出不同种类内部的事例间的顺序原则,进而用以引导用户进行消费。
1251 0
|
算法 数据挖掘 大数据
大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 时序算法——结果预算+下期彩票预测篇)
原文:(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 时序算法——结果预算+下期彩票预测篇) 前言 本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章Microsoft时序算法的一个总结,上一篇我们已经基于微软案例数据库的销售历史信息表,利用M...
1290 0