【Python机器学习专栏】集成学习中的Bagging与Boosting

2024-04-30 214

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第30天】本文介绍了集成学习中的两种主要策略：Bagging和Boosting。Bagging通过自助采样构建多个基学习器并以投票或平均法集成，降低模型方差，增强稳定性。在Python中可使用`BaggingClassifier`实现。而Boosting是串行学习，不断调整基学习器权重以优化拟合，适合弱学习器。Python中可利用`AdaBoostClassifier`等实现。示例代码展示了如何在实践中运用这两种方法。

在机器学习的领域中，集成学习是一种强大的技术，它通过构建并组合多个学习器（或称为“基学习器”）来完成学习任务。集成学习的主要目标是提高学习系统的泛化能力，即模型在新数据上的表现。其中，Bagging和Boosting是两种最流行的集成学习策略。本文将详细介绍这两种策略的原理、特点及其在Python中的应用。

一、Bagging

Bagging，即装袋法，是一种并行式的集成学习策略。它的基本思想是通过对原始数据集进行自助采样（Bootstrap Sampling），得到若干个不同的子集，并在每个子集上训练一个基学习器。由于采样是随机的，因此每个子集都会有所不同，这会导致每个基学习器学习到不同的知识。最后，通过投票法或平均法将这些基学习器的预测结果进行组合，得到最终的预测结果。

Bagging的主要优点包括：

能够降低模型的方差，提高模型的稳定性。由于每个基学习器都是在不同的数据集上训练的，因此它们之间的相关性较低，通过组合可以降低整体模型的方差。
对噪声和异常值具有较好的鲁棒性。由于每个基学习器都是在不同的数据集上训练的，因此即使某些数据集包含噪声或异常值，也不会对整个模型的性能产生太大影响。
在Python中，可以使用sklearn库中的BaggingClassifier或BaggingRegressor类来实现Bagging策略。以下是一个简单的示例：

python
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

加载数据集

iris = load_iris()
X, y = iris.data, iris.target

划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

定义基学习器（这里使用决策树）

base_estimator = DecisionTreeClassifier(random_state=42)

使用BaggingClassifier进行集成

bagging_clf = BaggingClassifier(base_estimator=base_estimator, n_estimators=10, random_state=42)

训练模型

bagging_clf.fit(X_train, y_train)

预测测试集并计算准确率

y_pred = bagging_clf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
二、Boosting

Boosting，即提升法，是一种串行式的集成学习策略。它的基本思想是通过迭代的方式，不断从错误中学习并调整每个基学习器的权重，以使得整个集成学习器能够更好地拟合训练数据。在Boosting中，每个基学习器都是基于前一个基学习器的预测结果进行训练的，因此它们之间存在依赖关系。

Boosting的主要优点包括：

能够提高模型的泛化能力。通过不断从错误中学习并调整基学习器的权重，Boosting能够使得整个集成学习器更好地拟合训练数据，从而提高模型的泛化能力。
对弱学习器具有较好的适应性。Boosting并不要求每个基学习器都具有很强的学习能力，只要它们能够在一定程度上正确分类样本，就可以通过Boosting的方式组合成一个强学习器。
在Python中，sklearn库提供了多种Boosting算法的实现，如AdaBoostClassifier、GradientBoostingClassifier等。以下是一个使用AdaBoostClassifier的示例：

python
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

加载数据集

iris = load_iris()
X, y = iris.data, iris.target

划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

定义基学习器（这里使用决策树）

base_estimator = DecisionTreeClassifier(max_depth=1, random_state=42)

使用AdaBoostClassifier进行集成

ada_clf = AdaBoostClassifier(base_estimator=base_estimator, n_estimators=50, random_state=42)

训练模型

ada_clf.fit(X_train, y_train)

【Python机器学习专栏】集成学习中的Bagging与Boosting

加载数据集

划分训练集和测试集

定义基学习器（这里使用决策树）

使用BaggingClassifier进行集成

训练模型

预测测试集并计算准确率

加载数据集

划分训练集和测试集

定义基学习器（这里使用决策树）

使用AdaBoostClassifier进行集成

训练模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Python机器学习专栏】集成学习中的Bagging与Boosting

加载数据集

划分训练集和测试集

定义基学习器（这里使用决策树）

使用BaggingClassifier进行集成

训练模型

预测测试集并计算准确率

加载数据集

划分训练集和测试集

定义基学习器（这里使用决策树）

使用AdaBoostClassifier进行集成

训练模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像