机器学习十大经典算法之AdaBoost-阿里云开发者社区

机器学习十大经典算法之AdaBoost

2023-01-05 653

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习十大经典算法之AdaBoost

集成学习Boosting

集成学习大致可分为两大类：Bagging和Boosting。Bagging一般使用强学习器，其个体学习器之间不存在强依赖关系，容易并行。Boosting则使用弱分类器，其个体学习器之间存在强依赖关系，是一种序列化方法。Bagging主要关注降低方差，而Boosting主要关注降低偏差。Boosting是一族算法，其主要目标为将弱学习器“提升”为强学习器，大部分Boosting算法都是根据前一个学习器的训练效果对样本分布进行调整，再根据新的样本分布训练下一个学习器，如此迭代M次，最后将一系列弱学习器组合成一个强学习器。而这些Boosting算法的不同点则主要体现在每轮样本分布的调整方式上。

AdaBoost原理简介

AdaBoost算法是Adaptive Boost的简称，Boosting通过将一系列弱学习器组合起来，通过集成这些弱学习器的学习能力，得到一个强学习器。具体到AdaBoost算法，AdaBoost在之前学习器的基础上改变样本的权重，增加那些之前被分类错误的样本的比重，降低分类正确样本的比重，这样之后的学习器将重点关注那些被分类错误的样本。最后通过将这些学习器通过加权组合成一个强学习器，具体的，分类正确率高的学习器权重较高，分类正确率低的学习器权重较低。

AdaBoost 算法流程

最后一步的模型Ensemble如下图所示，前面的数字表示，后面表示学习到的三个基学习器。

动手实践

在 Python 环境下使用 Adaboost 进行手写数字识别。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import train_test_split
from sklearn.model_selection import learning_curve
from sklearn.datasets import load_digits

首先，载入数据

dataset = load_digits()
X = dataset['data']
y = dataset['target']

X 包含长度为 64 的数组，它们代表了简单的 8x8 的平面图像。使用该数据集的目的是为了完成手写数字识别任务。下图为一个给定的手写数字的示例：

如果我们坚持使用深度为 1 的决策树分类器（决策树桩），以下是如何在这种情况下实现 AdaBoost 分类器：

reg_ada = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1))
scores_ada = cross_val_score(reg_ada, X, y, cv=6)
scores_ada.mean()

这样得到的分类准确率的结果应该约为 26%，还具有很大的提升空间。其中一个关键的参数是序列决策树分类器的深度。那么，决策树的深度如何变化才能提高分类准确率呢？

core = []
for depth in [1,2,10] :
    reg_ada = AdaBoostClassifier(DecisionTreeClassifier(max_depth=depth))
    scores_ada = cross_val_score(reg_ada, X, y, cv=6)
    score.append(scores_ada.mean())

在这个简单的例子中，当决策树的深度为 10 时，分类器得到了最高的分类准确率 95.8%。

机器学习十大经典算法之AdaBoost

集成学习Boosting

AdaBoost原理简介

AdaBoost 算法流程

动手实践

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

机器学习十大经典算法之AdaBoost

集成学习Boosting

AdaBoost原理简介

AdaBoost 算法流程

动手实践

热门文章

最新文章

相关课程

相关电子书