04 集成学习 - Boosting - AdaBoost算法构建

简介:

03 集成学习 - Boosting - AdaBoost算法原理

十、AdaBoost算法构建

上一章最后说明了每个基模型的权值α是如何求得的,于是我就可以对模型进行更新操作了。

构建过程一

1、假设数据集: T={(X1,Y1),(X2,Y2),...(Xn,Yn)}

2、初始化训练数据权重分布:
D1={w11,w12,...,w1i,...,w1n},w1i = 1/n , i=1,2,3,...,n;
(初始化的样本等权分配,有n个样本,每个样本的权重就是1/n)
D1 - 第一个样本集。
w12 - 第1个样本集中的第2个样本。

3、使用具有权值分布Dm的训练数据集学习,得到基本分类器:
Gm(x):x → {-1,+1}
分类器得到的结果不是-1就是+1。

4、计算__Gm(x)__在训练集上的分类误差:

5、计算__Gm(x)__的权值系数αm:

第5步完成后,会将样本的权重进行改变,回到第1步构建D2。

总结:反复执行a~e步骤,迭代生成新的学习器。
a、更新样本权重。
b、建立"某种"基模型。
c、计算当前模型(train set)的误分率。
d、计算基模型的权值。
e、更新样本的权重,形成新的样本集。
求解顺序: D1→G1→ξ1→α1→D2....

构建过程二

6、新训练数据集的权重分布
解决问题:新的样本集的样本权重如何分配。
从下图中可以看到,从第二轮开始,样本权重不再是均分的了。
Dm+1 代表的是权重构成的向量。右边是它的计算公式。
公式分析:
wm,i 是上一轮迭代中该样本的权重。
e-αyG(x) 是上一轮迭代中的损失值。(类似损失)

样本权重的向量(左)、计算公式(右)

7、上面公式中的 Zm 是规范化因子(归一化)
归一化

8、构建基分类器的线性组合
求解顺序: D1→G1→ξ1→α1→D2....

9、得到最终分类器

至此,完成了整个AdaBoost的构建过程。
核心求解步骤再次强调: D1→G1→ξ1→α1→D2 ....


总结和回顾 AdaBoost和bagging算法的区别:

bagging算法不会改变原始数据集当中的数据取值,但是boosting算法会根据基模型建立的结果,通过某种方法,改变数据集的样子,来建立下一个基模型。
1、改变样本的权重。
2、改变模型权值。
改变以上两种权值,等价于改变了原始数据集的数据取值。

相关文章
|
3月前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
130 3
|
19天前
|
负载均衡 算法
架构学习:7种负载均衡算法策略
四层负载均衡包括数据链路层、网络层和应用层负载均衡。数据链路层通过修改MAC地址转发帧;网络层通过改变IP地址实现数据包转发;应用层有多种策略,如轮循、权重轮循、随机、权重随机、一致性哈希、响应速度和最少连接数均衡,确保请求合理分配到服务器,提升性能与稳定性。
125 11
架构学习:7种负载均衡算法策略
|
3月前
|
机器学习/深度学习 算法 Python
随机森林算法是一种强大的集成学习方法,通过构建多个决策树并综合其结果进行预测。
随机森林算法是一种强大的集成学习方法,通过构建多个决策树并综合其结果进行预测。本文详细介绍了随机森林的工作原理、性能优势、影响因素及调优方法,并提供了Python实现示例。适用于分类、回归及特征选择等多种应用场景。
96 7
|
3月前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
数据结构与算法系列学习之串的定义和基本操作、串的储存结构、基本操作的实现、朴素模式匹配算法、KMP算法等代码举例及图解说明;【含常见的报错问题及其对应的解决方法】你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR
阿里云人工智能平台 PAI 与复旦大学王鹏教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。
|
3月前
|
算法 安全 搜索推荐
2024重生之回溯数据结构与算法系列学习(8)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第2.3章之IKUN和I原达人之数据结构与算法系列学习x单双链表精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
3月前
|
算法 安全 搜索推荐
2024重生之回溯数据结构与算法系列学习之单双链表精题详解(9)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第2.3章之IKUN和I原达人之数据结构与算法系列学习x单双链表精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
3月前
|
算法 安全 NoSQL
2024重生之回溯数据结构与算法系列学习之栈和队列精题汇总(10)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第3章之IKUN和I原达人之数据结构与算法系列学习栈与队列精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
3月前
|
JSON 算法 数据挖掘
基于图论算法有向图PageRank与无向图Louvain算法构建指令的方式方法 用于支撑qwen agent中的统计相关组件
利用图序列进行数据解读,主要包括节点序列分析、边序列分析以及结合节点和边序列的综合分析。节点序列分析涉及节点度分析(如入度、出度、度中心性)、节点属性分析(如品牌、价格等属性的分布与聚类)、节点标签分析(如不同标签的分布及标签间的关联)。边序列分析则关注边的权重分析(如关联强度)、边的类型分析(如管理、协作等关系)及路径分析(如最短路径计算)。结合节点和边序列的分析,如子图挖掘和图的动态分析,可以帮助深入理解图的结构和功能。例如,通过子图挖掘可以发现具有特定结构的子图,而图的动态分析则能揭示图随时间的变化趋势。这些分析方法结合使用,能够从多个角度全面解读图谱数据,为决策提供有力支持。
132 0
|
4月前
|
Java Maven Docker
gitlab-ci 集成 k3s 部署spring boot 应用
gitlab-ci 集成 k3s 部署spring boot 应用