Stacking算法

简介: 大家都是只关注stacking的操作是什么,虽然这很重要,但是却没有说明白为何有效。这一直是困惑我的点,我想通过论文搞清这些东西。貌似没找到,找到再贴。  我们将假设训练数据:train.csv有1000行;测试数据:test.csv有200行。

大家都是只关注stacking的操作是什么,虽然这很重要,但是却没有说明白为何有效。这一直是困惑我的点,我想通过论文搞清这些东西。貌似没找到,找到再贴。
  我们将假设训练数据:train.csv有1000行;测试数据:test.csv有200行。然后按照下图所示训练:

img_d5fdb128e94f58fdf6508dfa05935166.jpe

如图所示,我们现在用5折交叉验证来训练数据,model1要做满5次训练和预测。
第一次,model1,拿train.csv的800行做训练集,200行做验证集,然后预测出200行的数据a1。
第二次,model1,拿train.csv的800行做训练集,200行做验证集,然后预测出200行的数据a2。
第三次,model1,拿train.csv的800行做训练集,200行做验证集,然后预测出200行的数据a3。
第四次,model1,拿train.csv的800行做训练集,200行做验证集,然后预测出200行的数据a4。
第五次,model1,拿train.csv的800行做训练集,200行做验证集,然后预测出200行的数据a5。
然后将a1到a5拼接起来,得到一列,共1000行的数据。
针对测试集test.csv有两种方法,一种是全部训练完成后,一次性预测输出200行数据;另一种是model1每次做完训练就那test.csv中的数据做预测,一种得到5次200行的数据,然后做平均,得到一列200行的数据。
如果有10个基模型,那么根据train.csv会得到10列数据,作为x, 原来train.csv中的label作为y(很多文章都没说这点,导致初学者有很多误解),然后再放到一个模型中做训练。而根据test.csv会得到10列200行的数据,作为测试数据。
最后,将训练好的模型预测10列200行的数据,得到的最终结果就是最后需要的数据。这仅仅只是2层stacking,多的可以搞很多层。

最后,我想贴一些现成的stacking的框架的链接:
https://github.com/liyi19950329/stacking
https://github.com/liyi19950329/vecstack
https://github.com/liyi19950329/mlens
https://github.com/rasbt/mlxtend
https://github.com/mpearmain/gestalt
https://github.com/reiinakano/xcessiv
https://github.com/kaz-Anova/StackNet
这些框架都集成好了,学会使用就能实现stacking,不过我还是建议看看源码
如果源码看不下去,可以看看kaggle的教程:https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python

Blending:用不相交的数据训练不同的 Base Model,将它们的输出取(加权)平均。实现简单,但对训练数据利用少了。

目录
相关文章
|
C#
使用C#实现随机数生成器
在许多编程任务中,我们经常需要生成随机数。C#编程语言提供了用于生成伪随机数的内置类库。本篇博客将介绍如何使用C#来实现一个简单的随机数生成器。
644 0
|
5月前
|
人工智能 物联网
Face-to-Photo 模型开源!联名麦橘MERJIC,遇见另一个你!
魔搭 DiffSynth-Studio 团队携手知名创作者麦橘MERJIC,正式开源全新 AI 图像生成模型——Face-to-Photo!该模型基于 Qwen-Image-Edit,采用 LoRA 的模型结构,专为人脸图像生成而优化,将一张普通的人脸照片转化…
788 13
|
6月前
|
消息中间件 安全 物联网
海量接入、毫秒响应:易易互联基于 Apache RocketMQ + MQTT 构筑高可用物联网消息中枢
易易互联科技有限公司是吉利集团旗下专注于换电生态的全资子公司,致力于打造安全、便捷、便宜的智能换电网络。公司依托吉利GBRC换电平台,基于电池共享与车辆全生命周期运营,已布局超470座换电站,覆盖40多个城市,计划2027年达2000座。面对海量设备高并发连接、高实时性要求及数据洪峰挑战,易易互联采用阿里云MQTT与RocketMQ构建高效物联网通信架构,实现稳定接入、低延迟通信与弹性处理,全面支撑其全国换电网络规模化运营与智能化升级。
392 1
海量接入、毫秒响应:易易互联基于 Apache RocketMQ + MQTT 构筑高可用物联网消息中枢
|
6月前
|
算法 测试技术 决策智能
美团开源发布 LongCat-Flash-Chat:专为高效智能体任务设计,推理速度超100 tokens/s
9月1日,美团正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。
411 1
|
8月前
|
分布式计算 搜索推荐 算法
Java 大视界 -- Java 大数据在智慧养老服务需求分析与个性化服务匹配中的应用(186)
本篇文章探讨了Java大数据技术在智慧养老服务需求分析与个性化服务匹配中的应用。通过整合老年人健康数据与行为数据,结合机器学习与推荐算法,实现对老年人健康风险的预测及个性化服务推荐,提升养老服务的智能化与精准化水平,助力智慧养老高质量发展。
|
7月前
|
弹性计算 云计算
阿里云服务器如何实现自动伸缩
阿里云服务器(ECS)的自动伸缩功能可以通过弹性伸缩服务(Auto Scaling)实现,该服务能够根据业务需求动态调整计算资源。 **一、准备工作:** 在实现自动伸缩配置之前,需完成以下准备工作: 1.创建阿里云账号并完成实名认证。(登录账号过程中有不懂的可以看小编的教程帖) 2.开通弹性伸缩服务(ESS),使用弹性伸缩服务(ESS)实现ECS实例的自动伸缩, 弹性伸缩服务(ESS)可以根据业务需求自动创建或移除ECS实例,实现计算能力的动态调整。 3.创建专有网络VPC和安全组,以提高网络的安全性和隔离性。
|
9月前
|
XML 存储 数据格式
抖音卡片链接生成器,xml卡片数据支持快手,通过XPOSED实现制作
本项目介绍抖音/快手卡片链接生成技术,包含技术原理与核心功能实现。通过Xposed框架Hook目标APP关键方法,自定义卡片生成与跳转逻辑。卡片数据以XML格式存储,便于解析和跨平台使用。提供完整代码示例,涵盖Xposed模块配置、XML数据结构、Hook实现及卡片生成器核心类。下载地址:https://www.pan38.com/share.php?code=DuNzA,提取码:8888(仅供学习参考)。
|
11月前
|
机器学习/深度学习 人工智能 大数据
《爆不爆,数据说了算:大数据预测电影票房的门道》
《爆不爆,数据说了算:大数据预测电影票房的门道》
501 7
|
机器学习/深度学习 人工智能 自然语言处理
《一文读懂AI大模型:开启智能新时代的密码》
AI大模型是人工智能领域的重大飞跃,凭借Transformer架构和预训练-微调机制等核心技术,已在智能客服、内容创作、医疗诊断等领域广泛应用。它能处理多模态数据,大幅提升生产效率和生活质量。然而,大模型也面临可解释性、数据隐私和算力瓶颈等挑战。未来,随着技术进步,AI大模型将更加通用化和智能化,推动社会变革,创造更多奇迹。
854 11

热门文章

最新文章