1.基本概念
分类
找出描述和区分数据类或概念的模型, 以便能够使用模型预测类标号未知的对象的类标号。
概念区分
■ 分类与预测
• 分类是预测分类( 离散、 无序) 标号;
• 预测建立连续值函数模型;
■ 分类与聚类
• 分类是有监督学习, 提供了训练元组的类标号;
• 聚类是无监督学习, 不依赖有类标号的训练实例;
2.描述分类的一般过程
■ 学习阶段
• 建立描述预先定义的数据类或概念集的分类器
• 训练集提供了每个训练元组的类标号, 分类的学习过程,也称为监督学习 (supervised learning)
■ 分类阶段
• 使用定义好的分类器进行分类的过程
3.掌握朴素贝叶斯分类原理
4.决策树分类
决策树算法:
- Hunt算法
- 信息增益 Information gain(ID3)
- 增益比率 Gain ration (ID3,C4.5)
- 基尼指数—Gini index (SLIQ, SPRINT)
4.1 Hunt算法
• 贪心策略(局部最优)构建决策树
• 决策树归纳的设计问题
- 如何分裂训练记录?
怎样为不同类型的属性指定测试条件
怎样评估每种测试条件- 如何停止分裂过程?
5.模型的评价
5.1 准确率的局限
■ 考虑一个二分类问题
- 0类的实例数 = 9990
- 1类的实例数 = 10
■ 如果模型预测每个实例为0类, 则准确率为
- 准确率是误导
- 模型不能正确预测任何 而在疾病检测中,1类更需要被关心
5.2 其他度量
1.混淆矩阵
第一个字母T对应预测正确,F预测错误
第二个字母P对应真实正例,N真实反例
- 真阳历TP, 真阳性(True positive rate,TPR) 或灵敏度(sensitivity) 、 查全率(recall)
TPR= TP/(TP+ FN) - 真阴历TN, 真阴性(True negative rate, TNR) 或特指度 (specificity)
TNR= TN/(TN+ FP) - 假阳历FP, 假阳性(False positive rate,FPR) 或误报率
FPR = FP/(TN + FP) - 假阴历FN,假阴性(False negative rate, FNR ) ,漏报率(与查全率此消彼长 )
FNR = FN/(TP + FN)
2.广泛使用
召回率(查全率,recall):所有真实正例中
精确率(查准率,precision):所有预测正例中
实例
5.3 ROC曲线
■ 前面分类器性能评价的局限性:分类器预测结果为离散的1或者0
■ 朴素贝叶斯输出 p(|x y)=
■ 其他分类器输出是一个连续的概率值,且同我们仅仅关系“1” 类别的概率
解决方法: 连续的值离散化
导致的问题: 离散阈值难以确定
接收者操作特征曲线(Receiver Operating Characteristic Curve, 或者叫ROC曲线)是一种坐标图式的分析工具, 用于
- (1)选择最佳的分类模型、 舍弃次佳的模型。
- (2)在同一模型中设定最佳阈值。
■ ROC曲线下方的区域称为AUC
■ 做法:
- 首先利用分类器计算每个数据记录的后验概率 P(+|A)
- 将这些数据记录对应的 P(+|A)从高到低排列(如下表):
- 由低到高,对于每个P(+|A)值(threshold, 阈值),把对应的记录以及那些值高于或等于阈值指派为阳性类positive, 把那些低于阈值指派为阴性类negative
- 统计TP,FP,TN,FN
- 计算TPR = TP/(TP+FN)和
FPR = FP/(FP+ TN)
- 绘出诸点(FPR, TPR)并连接它们
5.4 过拟合与欠拟合
■ 分类模型的误差大致分为两种:
- 训练误差: 是在训练记录上误分类样本比例
- 泛化误差: 是模型在未知记录上的期望误差
■ 一个好的分类模型不仅要能够很好的拟合训练数据, 而且对未知样本也要能准确分类。
■ 换句话说, 一个好的分类模型必须具有低训练误差和低泛化误差。
■ 当训练数据拟合太好的模型(较低训练误差) , 其泛化误差可能比具有较高训练误差的模型高, 这种情况成为模型过分拟合。
数据预处理—>模型训练—>模型调整—>对新数据分类—>模型评价
实例
以决策树算法为例:
• 当决策树很小时,训练和检验误差都很大,这种情况称为模型拟合不足。出现拟合不足的原因是模型尚未学习到数据的真实结构。
• 随着决策树中结点数的增加,模型的训练误差和泛化误差都会随之下降。
• 当树的规模变得太大时,即使训练误差还在继续降低,但泛化误差开始增大,导致模型过分拟合。
导致过拟合的原因
• 训练集规模太大
• 训练集中存在大量噪音数据
• 训练集规模太小, 训练模型过于复杂