【Python机器学习专栏】集成学习中的Bagging与Boosting

简介: 【4月更文挑战第30天】本文介绍了集成学习中的两种主要策略:Bagging和Boosting。Bagging通过自助采样构建多个基学习器并以投票或平均法集成,降低模型方差,增强稳定性。在Python中可使用`BaggingClassifier`实现。而Boosting是串行学习,不断调整基学习器权重以优化拟合,适合弱学习器。Python中可利用`AdaBoostClassifier`等实现。示例代码展示了如何在实践中运用这两种方法。

在机器学习的领域中,集成学习是一种强大的技术,它通过构建并组合多个学习器(或称为“基学习器”)来完成学习任务。集成学习的主要目标是提高学习系统的泛化能力,即模型在新数据上的表现。其中,Bagging和Boosting是两种最流行的集成学习策略。本文将详细介绍这两种策略的原理、特点及其在Python中的应用。

一、Bagging

Bagging,即装袋法,是一种并行式的集成学习策略。它的基本思想是通过对原始数据集进行自助采样(Bootstrap Sampling),得到若干个不同的子集,并在每个子集上训练一个基学习器。由于采样是随机的,因此每个子集都会有所不同,这会导致每个基学习器学习到不同的知识。最后,通过投票法或平均法将这些基学习器的预测结果进行组合,得到最终的预测结果。

Bagging的主要优点包括:

能够降低模型的方差,提高模型的稳定性。由于每个基学习器都是在不同的数据集上训练的,因此它们之间的相关性较低,通过组合可以降低整体模型的方差。
对噪声和异常值具有较好的鲁棒性。由于每个基学习器都是在不同的数据集上训练的,因此即使某些数据集包含噪声或异常值,也不会对整个模型的性能产生太大影响。
在Python中,可以使用sklearn库中的BaggingClassifier或BaggingRegressor类来实现Bagging策略。以下是一个简单的示例:

python
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

加载数据集

iris = load_iris()
X, y = iris.data, iris.target

划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

定义基学习器(这里使用决策树)

base_estimator = DecisionTreeClassifier(random_state=42)

使用BaggingClassifier进行集成

bagging_clf = BaggingClassifier(base_estimator=base_estimator, n_estimators=10, random_state=42)

训练模型

bagging_clf.fit(X_train, y_train)

预测测试集并计算准确率

y_pred = bagging_clf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
二、Boosting

Boosting,即提升法,是一种串行式的集成学习策略。它的基本思想是通过迭代的方式,不断从错误中学习并调整每个基学习器的权重,以使得整个集成学习器能够更好地拟合训练数据。在Boosting中,每个基学习器都是基于前一个基学习器的预测结果进行训练的,因此它们之间存在依赖关系。

Boosting的主要优点包括:

能够提高模型的泛化能力。通过不断从错误中学习并调整基学习器的权重,Boosting能够使得整个集成学习器更好地拟合训练数据,从而提高模型的泛化能力。
对弱学习器具有较好的适应性。Boosting并不要求每个基学习器都具有很强的学习能力,只要它们能够在一定程度上正确分类样本,就可以通过Boosting的方式组合成一个强学习器。
在Python中,sklearn库提供了多种Boosting算法的实现,如AdaBoostClassifier、GradientBoostingClassifier等。以下是一个使用AdaBoostClassifier的示例:

python
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

加载数据集

iris = load_iris()
X, y = iris.data, iris.target

划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

定义基学习器(这里使用决策树)

base_estimator = DecisionTreeClassifier(max_depth=1, random_state=42)

使用AdaBoostClassifier进行集成

ada_clf = AdaBoostClassifier(base_estimator=base_estimator, n_estimators=50, random_state=42)

训练模型

ada_clf.fit(X_train, y_train)

相关文章
|
4天前
|
JavaScript Java 大数据
基于python的网络课程在线学习交流系统
本研究聚焦网络课程在线学习交流系统,从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现,融合云计算、大数据与人工智能,推动教育公平与教学模式创新,具有重要理论价值与实践意义。
|
2月前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
432 1
|
3月前
|
JSON 数据安全/隐私保护 数据格式
拼多多批量下单软件,拼多多无限账号下单软件,python框架仅供学习参考
完整的拼多多自动化下单框架,包含登录、搜索商品、获取商品列表、下单等功能。
|
3月前
|
机器学习/深度学习 数据安全/隐私保护 计算机视觉
过三色刷脸技术,过三色刷脸技术教程,插件过人脸python分享学习
三色刷脸技术是基于RGB三通道分离的人脸特征提取方法,通过分析人脸在不同颜色通道的特征差异
|
3月前
|
监控 数据安全/隐私保护 Python
微信自动抢红包免费版,2025微信抢红包神器,微信红包挂苹果版【python仅供学习】
这个模拟项目包含5个模块:核心监控逻辑、用户界面、配置管理、实用工具和主程序入口
|
12月前
|
Java Maven Docker
gitlab-ci 集成 k3s 部署spring boot 应用
gitlab-ci 集成 k3s 部署spring boot 应用
|
11月前
|
消息中间件 监控 Java
您是否已集成 Spring Boot 与 ActiveMQ?
您是否已集成 Spring Boot 与 ActiveMQ?
321 0
|
监控 druid Java
spring boot 集成配置阿里 Druid监控配置
spring boot 集成配置阿里 Druid监控配置
965 6
|
Java 关系型数据库 MySQL
如何实现Springboot+camunda+mysql的集成
【7月更文挑战第2天】集成Spring Boot、Camunda和MySQL的简要步骤: 1. 初始化Spring Boot项目,添加Camunda和MySQL驱动依赖。 2. 配置`application.properties`,包括数据库URL、用户名和密码。 3. 设置Camunda引擎属性,指定数据源。 4. 引入流程定义文件(如`.bpmn`)。 5. 创建服务处理流程操作,创建控制器接收请求。 6. Camunda自动在数据库创建表结构。 7. 启动应用,测试流程启动,如通过服务和控制器开始流程实例。 示例代码包括服务类启动流程实例及控制器接口。实际集成需按业务需求调整。
855 4
|
消息中间件 Java 测试技术
【RocketMQ系列八】SpringBoot集成RocketMQ-实现普通消息和事务消息
【RocketMQ系列八】SpringBoot集成RocketMQ-实现普通消息和事务消息
1029 1

推荐镜像

更多