数据挖掘2.5——分类知识点整理-阿里云开发者社区

数据挖掘2.5——分类知识点整理

2023-11-13 102

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据挖掘2.5——分类知识点整理

1.基本概念

分类

找出描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象的类标号。

概念区分

■ 分类与预测

• 分类是预测分类（离散、无序）标号；

• 预测建立连续值函数模型；

■ 分类与聚类

• 分类是有监督学习，提供了训练元组的类标号；

• 聚类是无监督学习，不依赖有类标号的训练实例；

2.描述分类的一般过程

■ 学习阶段

• 建立描述预先定义的数据类或概念集的分类器

• 训练集提供了每个训练元组的类标号，分类的学习过程，也称为监督学习 (supervised learning)

■ 分类阶段

• 使用定义好的分类器进行分类的过程

3.掌握朴素贝叶斯分类原理

4.决策树分类

决策树算法：

Hunt算法
信息增益 Information gain(ID3)
增益比率 Gain ration (ID3，C4.5)
基尼指数—Gini index (SLIQ, SPRINT)

4.1 Hunt算法

• 贪心策略（局部最优）构建决策树

• 决策树归纳的设计问题

如何分裂训练记录？
怎样为不同类型的属性指定测试条件
怎样评估每种测试条件

如何停止分裂过程？

5.模型的评价

5.1 准确率的局限

■ 考虑一个二分类问题

0类的实例数 = 9990
1类的实例数 = 10

■ 如果模型预测每个实例为0类，则准确率为

准确率是误导
模型不能正确预测任何而在疾病检测中，1类更需要被关心

5.2 其他度量

1.混淆矩阵

第一个字母T对应预测正确，F预测错误

第二个字母P对应真实正例，N真实反例

真阳历TP，真阳性（True positive rate,TPR) 或灵敏度（sensitivity) 、查全率(recall)
TPR= TP/(TP+ FN)
真阴历TN，真阴性（True negative rate， TNR) 或特指度 (specificity)
TNR= TN/(TN+ FP)
假阳历FP，假阳性（False positive rate,FPR) 或误报率
FPR = FP/(TN + FP)
假阴历FN，假阴性(False negative rate, FNR ) ，漏报率（与查全率此消彼长 )
FNR = FN/(TP + FN)

2.广泛使用

召回率（查全率，recall）：所有真实正例中

精确率（查准率，precision）：所有预测正例中

实例

5.3 ROC曲线

■ 前面分类器性能评价的局限性：分类器预测结果为离散的1或者0

■ 朴素贝叶斯输出 p(|x y)=

■ 其他分类器输出是一个连续的概率值，且同我们仅仅关系“1” 类别的概率

解决方法：连续的值离散化

导致的问题：离散阈值难以确定

接收者操作特征曲线（Receiver Operating Characteristic Curve, 或者叫ROC曲线）是一种坐标图式的分析工具，用于

(1)选择最佳的分类模型、舍弃次佳的模型。
(2)在同一模型中设定最佳阈值。

■ ROC曲线下方的区域称为AUC

■ 做法：

首先利用分类器计算每个数据记录的后验概率 P(+|A)
将这些数据记录对应的 P(+|A)从高到低排列（如下表）：

由低到高，对于每个P(+|A)值(threshold, 阈值），把对应的记录以及那些值高于或等于阈值指派为阳性类positive，把那些低于阈值指派为阴性类negative
统计TP，FP，TN，FN
计算TPR = TP/(TP+FN)和
FPR = FP/(FP+ TN)

绘出诸点(FPR， TPR)并连接它们

5.4 过拟合与欠拟合

■ 分类模型的误差大致分为两种：

训练误差：是在训练记录上误分类样本比例
泛化误差：是模型在未知记录上的期望误差

■ 一个好的分类模型不仅要能够很好的拟合训练数据，而且对未知样本也要能准确分类。

■ 换句话说，一个好的分类模型必须具有低训练误差和低泛化误差。

■ 当训练数据拟合太好的模型（较低训练误差），其泛化误差可能比具有较高训练误差的模型高，这种情况成为模型过分拟合。

数据预处理—>模型训练—>模型调整—>对新数据分类—>模型评价

实例

以决策树算法为例：

• 当决策树很小时，训练和检验误差都很大，这种情况称为模型拟合不足。出现拟合不足的原因是模型尚未学习到数据的真实结构。

• 随着决策树中结点数的增加，模型的训练误差和泛化误差都会随之下降。

• 当树的规模变得太大时，即使训练误差还在继续降低，但泛化误差开始增大，导致模型过分拟合。

导致过拟合的原因

• 训练集规模太大

• 训练集中存在大量噪音数据

• 训练集规模太小，训练模型过于复杂

数据挖掘2.5——分类知识点整理

1.基本概念

2.描述分类的一般过程

3.掌握朴素贝叶斯分类原理