集成学习算法策略 Boosting和Bagging

简介: 集成学习算法策略 Boosting和Bagging

正文


集成学习是机器学习中的一个重要分支。

它主要包含两种策略:BoostingBagging

Boosting和Bagging都是基于多个弱学习器(弱分类器)(例如:一颗欠拟合的决策树)的基础之上的,且要满足,每一个弱学习器的分类准确性都要强于随机分类(即准确率大于50%)


策略 Boosting方法 Bagging方法

训练方式

主要通过改变训练样本的权重(初始化时给所有训练样本相同的权重),学习多个弱学习器,并将这些弱学习器进行线性组合,提高分类性能。 主要通过从原始训练集中抽取n个样本的训练集,共进行k次,得到K个样本集,每个样本集单独训练,最后如果是分类方法则通过投票的方式得到分类结果;如果是回归方法则采用平均值的作为预测结果。

样本选择

每一轮的训练集不变,只是训练集中每个样例在弱学习器中的权重发生变化。而权值是根据上一轮的分类结果进行调整 训练集是在原始训练数据集中有放回选取的,从原始训练数据集中选出的各轮训练集之间是独立的。
样例权重 根据错误率不断调整样例的权值,样例被错误分类的概率越大则样例权重越大。 使用均匀取样,每个样例的权重相等
预测函数 每个弱学习器都有相应的权重,对于分类误差小的弱学习器会有更大的权重。 所有预测函数的权重相等。
并行计算 各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。 各个预测函数可以并行生成。


这两种方法都是把若干个弱学习器整合为一个综合学习器的方法,只是整合的方式不一样,最终得到不一样的效果,将不同的分类算法套入到此类算法框架中一定程度上会提高了原单一弱学习器的分类效果,但是也增大了计算量。


集成学习算法的常见应用:


Bagging + 决策树 = 随机森林(Random Forest)

AdaBoost + 决策树 = 提升树

Gradient Boosting + 决策树 = GBDT


相关文章
|
8月前
|
存储 算法 调度
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
397 26
|
9月前
|
机器学习/深度学习 算法 数据挖掘
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
262 0
|
存储 监控 算法
解析公司屏幕监控软件中 C# 字典算法的数据管理效能与优化策略
数字化办公的时代背景下,企业为维护信息安全并提升管理效能,公司屏幕监控软件的应用日益普及。此软件犹如企业网络的 “数字卫士”,持续记录员工电脑屏幕的操作动态。然而,伴随数据量的持续增长,如何高效管理这些监控数据成为关键议题。C# 中的字典(Dictionary)数据结构,以其独特的键值对存储模式和高效的操作性能,为公司屏幕监控软件的数据管理提供了有力支持。下文将深入探究其原理与应用。
330 4
|
8月前
|
机器学习/深度学习 运维 算法
【微电网多目标优化调度】多目标学习者行为优化算法MOLPB求解微电网多目标优化调度研究(Matlab代码实现)
【微电网多目标优化调度】多目标学习者行为优化算法MOLPB求解微电网多目标优化调度研究(Matlab代码实现)
346 1
|
9月前
|
机器学习/深度学习 算法 数据可视化
近端策略优化算法PPO的核心概念和PyTorch实现详解
本文深入解析了近端策略优化(PPO)算法的核心原理,并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程,涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合,适合希望掌握PPO算法及其实现的读者。
1454 2
近端策略优化算法PPO的核心概念和PyTorch实现详解
|
8月前
|
存储 并行计算 算法
【动态多目标优化算法】基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023研究(Matlab代码实现)
【动态多目标优化算法】基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023研究(Matlab代码实现)
364 4
|
8月前
|
运维 算法 安全
基于变异粒子群算法的主动配电网故障恢复策略(Matlab代码实现)
基于变异粒子群算法的主动配电网故障恢复策略(Matlab代码实现)
104 2
|
10月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
260 4
|
JSON 前端开发 算法
掌握Multi-Agent实践(三):ReAct Agent集成Bing和Google搜索功能,采用推理与执行交替策略,增强处理复杂任务能力
掌握Multi-Agent实践(三):ReAct Agent集成Bing和Google搜索功能,采用推理与执行交替策略,增强处理复杂任务能力
1036 23
|
算法 数据可视化 开发者
为什么要学习数据结构与算法
今天,我向大家介绍一门非常重要的课程——《数据结构与算法》。这门课不仅是计算机学科的核心,更是每一位开发者从“小白”迈向“高手”的必经之路。
为什么要学习数据结构与算法

热门文章

最新文章