【Python机器学习专栏】集成学习中的Bagging与Boosting

简介: 【4月更文挑战第30天】本文介绍了集成学习中的两种主要策略:Bagging和Boosting。Bagging通过自助采样构建多个基学习器并以投票或平均法集成,降低模型方差,增强稳定性。在Python中可使用`BaggingClassifier`实现。而Boosting是串行学习,不断调整基学习器权重以优化拟合,适合弱学习器。Python中可利用`AdaBoostClassifier`等实现。示例代码展示了如何在实践中运用这两种方法。

在机器学习的领域中,集成学习是一种强大的技术,它通过构建并组合多个学习器(或称为“基学习器”)来完成学习任务。集成学习的主要目标是提高学习系统的泛化能力,即模型在新数据上的表现。其中,Bagging和Boosting是两种最流行的集成学习策略。本文将详细介绍这两种策略的原理、特点及其在Python中的应用。

一、Bagging

Bagging,即装袋法,是一种并行式的集成学习策略。它的基本思想是通过对原始数据集进行自助采样(Bootstrap Sampling),得到若干个不同的子集,并在每个子集上训练一个基学习器。由于采样是随机的,因此每个子集都会有所不同,这会导致每个基学习器学习到不同的知识。最后,通过投票法或平均法将这些基学习器的预测结果进行组合,得到最终的预测结果。

Bagging的主要优点包括:

能够降低模型的方差,提高模型的稳定性。由于每个基学习器都是在不同的数据集上训练的,因此它们之间的相关性较低,通过组合可以降低整体模型的方差。
对噪声和异常值具有较好的鲁棒性。由于每个基学习器都是在不同的数据集上训练的,因此即使某些数据集包含噪声或异常值,也不会对整个模型的性能产生太大影响。
在Python中,可以使用sklearn库中的BaggingClassifier或BaggingRegressor类来实现Bagging策略。以下是一个简单的示例:

python
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

加载数据集

iris = load_iris()
X, y = iris.data, iris.target

划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

定义基学习器(这里使用决策树)

base_estimator = DecisionTreeClassifier(random_state=42)

使用BaggingClassifier进行集成

bagging_clf = BaggingClassifier(base_estimator=base_estimator, n_estimators=10, random_state=42)

训练模型

bagging_clf.fit(X_train, y_train)

预测测试集并计算准确率

y_pred = bagging_clf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
二、Boosting

Boosting,即提升法,是一种串行式的集成学习策略。它的基本思想是通过迭代的方式,不断从错误中学习并调整每个基学习器的权重,以使得整个集成学习器能够更好地拟合训练数据。在Boosting中,每个基学习器都是基于前一个基学习器的预测结果进行训练的,因此它们之间存在依赖关系。

Boosting的主要优点包括:

能够提高模型的泛化能力。通过不断从错误中学习并调整基学习器的权重,Boosting能够使得整个集成学习器更好地拟合训练数据,从而提高模型的泛化能力。
对弱学习器具有较好的适应性。Boosting并不要求每个基学习器都具有很强的学习能力,只要它们能够在一定程度上正确分类样本,就可以通过Boosting的方式组合成一个强学习器。
在Python中,sklearn库提供了多种Boosting算法的实现,如AdaBoostClassifier、GradientBoostingClassifier等。以下是一个使用AdaBoostClassifier的示例:

python
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

加载数据集

iris = load_iris()
X, y = iris.data, iris.target

划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

定义基学习器(这里使用决策树)

base_estimator = DecisionTreeClassifier(max_depth=1, random_state=42)

使用AdaBoostClassifier进行集成

ada_clf = AdaBoostClassifier(base_estimator=base_estimator, n_estimators=50, random_state=42)

训练模型

ada_clf.fit(X_train, y_train)

相关文章
|
1月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
301 0
|
1月前
|
存储 JavaScript Java
(Python基础)新时代语言!一起学习Python吧!(四):dict字典和set类型;切片类型、列表生成式;map和reduce迭代器;filter过滤函数、sorted排序函数;lambda函数
dict字典 Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 我们可以通过声明JS对象一样的方式声明dict
169 1
|
1月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
259 1
|
1月前
|
存储 Java 索引
(Python基础)新时代语言!一起学习Python吧!(二):字符编码由来;Python字符串、字符串格式化;list集合和tuple元组区别
字符编码 我们要清楚,计算机最开始的表达都是由二进制而来 我们要想通过二进制来表示我们熟知的字符看看以下的变化 例如: 1 的二进制编码为 0000 0001 我们通过A这个字符,让其在计算机内部存储(现如今,A 字符在地址通常表示为65) 现在拿A举例: 在计算机内部 A字符,它本身表示为 65这个数,在计算机底层会转为二进制码 也意味着A字符在底层表示为 1000001 通过这样的字符表示进行转换,逐步发展为拥有127个字符的编码存储到计算机中,这个编码表也被称为ASCII编码。 但随时代变迁,ASCII编码逐渐暴露短板,全球有上百种语言,光是ASCII编码并不能够满足需求
145 4
|
Java Maven Docker
gitlab-ci 集成 k3s 部署spring boot 应用
gitlab-ci 集成 k3s 部署spring boot 应用
|
消息中间件 监控 Java
您是否已集成 Spring Boot 与 ActiveMQ?
您是否已集成 Spring Boot 与 ActiveMQ?
375 0
|
监控 druid Java
spring boot 集成配置阿里 Druid监控配置
spring boot 集成配置阿里 Druid监控配置
1137 6
|
Java 关系型数据库 MySQL
如何实现Springboot+camunda+mysql的集成
【7月更文挑战第2天】集成Spring Boot、Camunda和MySQL的简要步骤: 1. 初始化Spring Boot项目,添加Camunda和MySQL驱动依赖。 2. 配置`application.properties`,包括数据库URL、用户名和密码。 3. 设置Camunda引擎属性,指定数据源。 4. 引入流程定义文件(如`.bpmn`)。 5. 创建服务处理流程操作,创建控制器接收请求。 6. Camunda自动在数据库创建表结构。 7. 启动应用,测试流程启动,如通过服务和控制器开始流程实例。 示例代码包括服务类启动流程实例及控制器接口。实际集成需按业务需求调整。
961 4
|
消息中间件 Java 测试技术
【RocketMQ系列八】SpringBoot集成RocketMQ-实现普通消息和事务消息
【RocketMQ系列八】SpringBoot集成RocketMQ-实现普通消息和事务消息
1193 1
|
消息中间件 Java Kafka
springboot集成kafka
springboot集成kafka
494 2

推荐镜像

更多