统计学习方法笔记 -- Boosting方法-阿里云开发者社区

开发者社区> 寒凝雪> 正文

统计学习方法笔记 -- Boosting方法

简介:
+关注继续查看

AdaBoost算法

基本思想是,对于一个复杂的问题,单独用一个分类算法判断比较困难,那么我们就用一组分类器来进行综合判断,得到结果,“三个臭皮匠顶一个诸葛亮”

专业的说法,

强可学习(strongly learnable),存在一个多项式算法可以学习,并且准确率很高 
弱可学习(weakly learnable),存在一个多项式算法可以学习,但准确率略高于随机猜测

并且可以证明强可学习和弱可学习是等价的

那么发现一个弱可学习算法是很容易的,如果将弱可学习算法boosting到强可学习算法?

AdaBoost就是这样的算法,通过反复学习,得到一组弱分类器,通过组合这些弱分类器得到强分类器

问题就是如果得到一组弱分类器?

当然你可以用不同的分类算法来训练 
也可以用不同的训练集,比如bagging,对训练集进行m次随机抽样,得到m个新的训练集

AdaBoost采用的方法是,用相同的算法和训练集,但改变每个训练样本的weight,因为在求解分类器时的目标函数是,加权误差最小,所以不同的权值会得到不同的分类器参数 
具体的规则,是每轮分类后, 增大分错的样本的权值,减小分对样本的权值,所有样本权值和为1 
这样下一轮分类器求解,就会更关注上一轮分错的这样样本点,达到分而治之的目的

需要注意,可以想到,这个算法对离群值比较敏感,容易overfitting

并且每个弱分类器也有个weight,代表该分类器的误差率,最终用加权多数表决的方式来得到最终结果

具体算法,

对于image 训练集

1. 初始化训练样本的权值,平均分布,每个样本的概率相同

image

2. 反复迭代学习得到m个弱分类器,对于第m个弱分类器,

2.1 对于训练集,以加权误差最小为目标,求出分类器,Gm

image

2.2 算出,该弱分类器的加权误差

image

2.3 算出该弱分类器的权值,log函数,可见误差越小,权值越高,即在最终强分类器中的作用越大

image

2.4 关键的一步,更新训练样本的权值

image

image

其中,第一个式子其实是,

image

指数分布,小于0,取值在(0,1),大于0,取值大于1 
所以意思就是,当Gm(x)=y的时候,即判断正确的样本,减小权值 
判断错误的样本,增加权值 
之所以要除以Zm,是因为所有权值的和要为1,用Zm来进行规范化

3. 上面我们就得到m个弱分类器,如何组合出强分类器,

image

image

很简单的,加权多数表决 
其中sign函数,取值-1(x<0),0,1(x>0)


本文章摘自博客园,原文发布日期: 2014-08-26

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10098 0
【20171031】在mac安装苹果提供的机器学习开发工具coremltools
尝试安装coremltools,结果不慎理想,后续会有隐患,继续尝试解决中。 昨晚下载受限网络因素多次重试,每次中断后需要从头下载。 今早下载成功,但安装numpy时碰到异常,但检查处理。
894 0
应用统计学与R语言实现学习笔记(三)——描述性统计
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71190387 Chapter 3 Descriptive Statistics 本篇是第三章,内容是描述性统计。
876 0
应用统计学与R语言实现学习笔记(十四)——案例与实践
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/78177826 Chapter 14 Case and Practice 本篇是第十四章,内容是案例与实践。
1159 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
10887 0
通过设计让学习变轻松 - Google 的 Primer 团队是如何做用户体验设计的
本文讲的是通过设计让学习变轻松 - Google 的 Primer 团队是如何做用户体验设计的,那么可想而知:尽管大量信息对我们来说触手可及,而所有的新技术都似乎在一夜之间涌出,97%的人丝毫不会为了提升自己而花时间寻求这些新知识。
1155 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13895 0
+关注
5854
文章
223
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载