集成学习算法策略 Boosting和Bagging

简介: 集成学习算法策略 Boosting和Bagging

正文


集成学习是机器学习中的一个重要分支。

它主要包含两种策略:BoostingBagging

Boosting和Bagging都是基于多个弱学习器(弱分类器)(例如:一颗欠拟合的决策树)的基础之上的,且要满足,每一个弱学习器的分类准确性都要强于随机分类(即准确率大于50%)


策略 Boosting方法 Bagging方法

训练方式

主要通过改变训练样本的权重(初始化时给所有训练样本相同的权重),学习多个弱学习器,并将这些弱学习器进行线性组合,提高分类性能。 主要通过从原始训练集中抽取n个样本的训练集,共进行k次,得到K个样本集,每个样本集单独训练,最后如果是分类方法则通过投票的方式得到分类结果;如果是回归方法则采用平均值的作为预测结果。

样本选择

每一轮的训练集不变,只是训练集中每个样例在弱学习器中的权重发生变化。而权值是根据上一轮的分类结果进行调整 训练集是在原始训练数据集中有放回选取的,从原始训练数据集中选出的各轮训练集之间是独立的。
样例权重 根据错误率不断调整样例的权值,样例被错误分类的概率越大则样例权重越大。 使用均匀取样,每个样例的权重相等
预测函数 每个弱学习器都有相应的权重,对于分类误差小的弱学习器会有更大的权重。 所有预测函数的权重相等。
并行计算 各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。 各个预测函数可以并行生成。


这两种方法都是把若干个弱学习器整合为一个综合学习器的方法,只是整合的方式不一样,最终得到不一样的效果,将不同的分类算法套入到此类算法框架中一定程度上会提高了原单一弱学习器的分类效果,但是也增大了计算量。


集成学习算法的常见应用:


Bagging + 决策树 = 随机森林(Random Forest)

AdaBoost + 决策树 = 提升树

Gradient Boosting + 决策树 = GBDT


相关文章
|
8月前
|
存储 算法 调度
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
397 26
|
存储 监控 算法
解析公司屏幕监控软件中 C# 字典算法的数据管理效能与优化策略
数字化办公的时代背景下,企业为维护信息安全并提升管理效能,公司屏幕监控软件的应用日益普及。此软件犹如企业网络的 “数字卫士”,持续记录员工电脑屏幕的操作动态。然而,伴随数据量的持续增长,如何高效管理这些监控数据成为关键议题。C# 中的字典(Dictionary)数据结构,以其独特的键值对存储模式和高效的操作性能,为公司屏幕监控软件的数据管理提供了有力支持。下文将深入探究其原理与应用。
330 4
|
9月前
|
机器学习/深度学习 算法 数据可视化
近端策略优化算法PPO的核心概念和PyTorch实现详解
本文深入解析了近端策略优化(PPO)算法的核心原理,并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程,涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合,适合希望掌握PPO算法及其实现的读者。
1455 2
近端策略优化算法PPO的核心概念和PyTorch实现详解
|
8月前
|
存储 并行计算 算法
【动态多目标优化算法】基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023研究(Matlab代码实现)
【动态多目标优化算法】基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023研究(Matlab代码实现)
364 4
|
8月前
|
运维 算法 安全
基于变异粒子群算法的主动配电网故障恢复策略(Matlab代码实现)
基于变异粒子群算法的主动配电网故障恢复策略(Matlab代码实现)
104 2
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
997 3
|
10月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
260 4
|
JSON 前端开发 算法
掌握Multi-Agent实践(三):ReAct Agent集成Bing和Google搜索功能,采用推理与执行交替策略,增强处理复杂任务能力
掌握Multi-Agent实践(三):ReAct Agent集成Bing和Google搜索功能,采用推理与执行交替策略,增强处理复杂任务能力
1036 23
|
12月前
|
监控 算法 JavaScript
公司局域网管理视域下 Node.js 图算法的深度应用研究:拓扑结构建模与流量优化策略探析
本文探讨了图论算法在公司局域网管理中的应用,针对设备互联复杂、流量调度低效及安全监控困难等问题,提出基于图论的解决方案。通过节点与边建模局域网拓扑结构,利用DFS/BFS实现设备快速发现,Dijkstra算法优化流量路径,社区检测算法识别安全风险。结合WorkWin软件实例,展示了算法在设备管理、流量调度与安全监控中的价值,为智能化局域网管理提供了理论与实践指导。
312 3

热门文章

最新文章