关于Adaboost算法的两篇论文
The Boosting Approach to Machine Learning
A Short Introduction to Boosting
论文内容基本相同,推荐完完整整看完其中一篇之后,在扫一下第二篇。
担心这两篇论文原始地址变了,上传一份csdn的资源,作为备份。
The Boosting Approach to Machine Learning An Overview
A Short Introduction to Boosting
我获益最大的内容:
1.二分类问题下adaboost的算法步骤:
步骤中各参数及其意义:
Zt起到归一化Dt的概率分布的作用,使所有Dt(i)的总和为1,因此Zt为:
2.为什么Adaboost多个弱分类器可以提高整体分类效果:
2.1.Adaboost在训练样本上的误差上界为:
2.2.证明通过添加一个分类误差大于>0.5的弱分类器,可以减小误差上界
3.Adaboost迭代次数的确定:
机器学习的许多算法中,训练样本上的过度学习,会导致过拟合问题,这篇论文在<4 Generalization error>一节中
指出,adaboost在测试集合上的误差,与迭代次数无关,因此可以放心迭代降低分类器在训练样本上的误差,并且同时指出,
减少训练样本误差,有助于减少测试样本的误差。
在这里辨析两个概念:
分类(classfication)&回归(regression)
分类在数据集上学习规则,对输入的特征,输出其对应的类别(离散值),其中类别由先验知识确定
回归在数据集上拟合函数,对输入的特征,输出其对应的值(实数值),例如函数曲线拟合
可参考 Difference Between Classification and Regression