R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

简介: R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Boosting算法是一种把若干个分类器整合为一个分类器的方法,也就是一种集成分类方法(Ensemble Method)

计量经济学的视角

可以从计量经济学的角度理解提升方法(Boosting)的内容。

这里的目标是要解决:

损失函数ℓ,以及预测器集合M。这是一个优化问题。这里的优化是在函数空间中进行的,是一个简单的优化问题。从数值的角度来看,优化是用梯度下降来解决的(这就是为什么这种技术也被称为梯度提升)。

同样,最佳值不是某个实值x⋆,而是某个函数m⋆。因此,在这里我们会有类似m

其中右边的式子也可以写成

从后者可以清楚地看到f是我们在剩余残差上拟合的模型。

我们可以这样改写:定义

目标是拟合一个模型,使 ri,k=h⋆(xi),当我们有了这个最优函数。设 mk(x)=mk-1(x)+γkh⋆(x)。

这里有两个重要点。

首先,我们拟合一个模型,通过一些协变量 x来解释 y。然后考虑残差 ε,并以相同的协变量 x来解释它们。如果你尝试用线性回归,你会在第1步结束时完成,因为残差 ε与协变量  x是正交的:我们没有办法从它们那里学习。在这里它是有效的,因为我们考虑的是简单的非线性模型。而实际上,可以使用的东西是添加一个收缩参数。不要考虑 ε=y-m(x),而是 ε=y-γm(x) 。弱学习的概念在这里是极其重要的。我们收缩得越多,花的时间就越长。不断从错误中学习是件好事。但从启发式的角度来看,当我们开始过度拟合时,我们应该停止。而这可以通过对初始数据集进行分割训练验证或使用交叉验证来观察。

样条曲线

我们尝试用样条曲线来学习。因为标准的样条曲线有固定的结点,

在这里,我们将(以某种方式)优化结点位置。为了说明问题,这里使用的是高斯回归,而不是分类。考虑以下数据集(只有一个协变量):

对于结点的最佳选择,我们可以使用

lsgen(x, y, degree = 1, numknot = 2)

在5%的收缩参数下,代码简单如下

v=.05
fit=lm(y~bs(x,degree=1,knots=optknot))
yp=predict(fit,newdata=df)
 yr= y - v*yp
YP=v*yp
for(t in 1:200){
fit=lm(yr~bs(x,degree=1,knots= optknot) )
 
 
plot(  x,  y,ylab="",xlab="")
lines(  x,y,type="l" )

为了直观地看到100次迭代的结果,使用动态可视化

viz(100)

图1

很明显,我们看到,在这里从数据中学习。

决策回归树

我们尝试一下别的模型。如果我们在每一步都考虑决策树,而不是线性逐步回归(这是用线性样条考虑的)。

v=.1 
rpart(y~x,data=df)
yp=predict(fit)
 yr= y -  yp
YP=v*yp
for(t in 1:100){
 predict(fit,newdata=df)

同样,为了将学习过程动态可视化,使用

plot( x, y,ylab="",xlab="")
lines( x,y,type="s"
fit=rpart(y~x,data=df)

图2

这一次,通过这些树我们不仅有一个好的模型,而且与我们使用单一的回归树所能得到的模型不同。

如果我们改变收缩参数呢?


为了直观地看到缩参数改变的结果,使用动态可视化

viz=function(v=0.05)
 f$yr=df$y -v*yp
 YP=v*yp
 for(t in 1:100){
 yp=predict(fit,newdata=df)
 yr= yr - v*yp
 lines(df$x,y,type="s"

图3

显然,这个收缩参数有影响。它必须很小才能得到一个好的模型。这就是使用弱学习来获得好的预测的想法。

分类和Adaboost

现在我们了解了bootsting的工作原理,并把它用于分类。这将更加复杂,因为残差在分类中通常信息量不大,而且它很难缩减。因此,让我们尝试一些稍微不同的方法,来介绍adaboost算法,AdaBoost是最著名的Boosting族算法。

在我们最初的讨论中,目标是最小化一个凸的损失函数。在这里,如果我们把类表示为{-1,+1},我们考虑的损失函数是 (与逻辑模型相关的损失函数是

我们在这里所做的与梯度下降(或牛顿算法)有关。之前,我们是从误差中学习的。在每个迭代中,计算残差,并对这些残差拟合一个(弱)模型。这个弱模型的贡献被用于梯度下降优化过程。

这里的情况会有所不同,因为更难使用残差,空残差在分类中从不存在。所以我们将增加权重。最初,所有的观察值都有相同的权重。但是,迭代之后,我们将增加预测错误的个体的权重,减少预测正确的个体的权重。

我们从ω0=1n开始,然后在每一步拟合一个模型(分类树),权重为ωk(我们没有讨论树的算法中的权重,但实际上在公式中是很直接的)。让hωk表示该模型(即每个叶子里的概率)。然后考虑分类器 ,它返回一个在{-1,+1}的值。然后设

Ik是被错误分类的个体集合。

然后设置

并在最后更新模型时使用

以及权重

除以总和,以确保总和是1。如前所述,我们可以包括一些收缩参数。为了直观地看到这个过程的收敛性,我们将在我们的数据集上绘制总误差。

for(i in 1:n_iter)rfit = rpart(y~., x, w, method="class")
g = -1 + 2*(predict(rfit,x)\[,2\]>.5) 
e = sum(w*(y*>0))
error\[i\] = mean(1\*f\*y<0)
plot(seq(1,n_iter),error

图4


在这里,我们面临一个机器学习中的经典问题:我们有一个完美的模型,误差为零。用多项式拟合:有10个观察值,9度的多项式,拟合很好。将我们的数据集一分为二,一个训练数据集,一个验证数据集。

train\_car = car\[id\_train,\]
test\_car= car\[-id\_train,\]

我们在第一个模型上构建模型,并在第二个模型上检查

for(i in 1:n_iter){
  rfit = rpart(y\_train~., x\_train, w_train, method="class")
  train\_error\[i\] = mean(1\*f\_train\*y_train&lt;0)
  test\_error\[i\] = mean(1\*f\_test\*y_test&lt;0)}
plot(seq(1,n\_iter),test\_error)

图5


在这里,和以前一样,经过80次迭代,我们在训练数据集上有一个不错的模型,但在验证数据集上表现得很差。在20次迭代后,效果比较好。

R函数:梯度提升(_GBM_)算法

也可以使用R函数。

gbm(y~ .,n.trees = 200,shrinkage = .01,cv.folds = 5

这里考虑的是交叉验证,而不是训练验证,以及用得是森林而不是单棵树,当然,输出要好得多(这里收缩参数是一个非常小的参数,而且学习非常慢)。

图6



相关文章
|
4月前
|
数据可视化 数据挖掘 图形学
R语言基础可视化:使用ggplot2构建精美图形的探索
【8月更文挑战第29天】 `ggplot2`是R语言中一个非常强大的图形构建工具,它基于图形语法提供了一种灵活且直观的方式来创建各种统计图形。通过掌握`ggplot2`的基本用法和美化技巧,你可以轻松地将复杂的数据转化为直观易懂的图形,从而更好地理解和展示你的数据分析结果。希望本文能够为你探索`ggplot2`的世界提供一些帮助和启发。
|
4月前
|
数据可视化 数据挖掘 数据处理
R语言高级可视化技巧:使用Plotly与Shiny制作互动图表
【8月更文挑战第30天】通过使用`plotly`和`shiny`,我们可以轻松地创建高度互动的数据可视化图表。这不仅增强了图表的表现力,还提高了用户与数据的交互性,使得数据探索变得更加直观和高效。本文仅介绍了基本的使用方法,`plotly`和`shiny`还提供了更多高级功能和自定义选项,等待你去探索和发现。希望这篇文章能帮助你掌握使用`plotly`和`shiny`制作互动图表的技巧,并在你的数据分析和可视化工作中发挥更大的作用。
|
4月前
|
数据可视化
R语言可视化设计原则:打造吸引力十足的数据可视化
【8月更文挑战第30天】R语言可视化设计是一个综合性的过程,需要综合运用多个设计原则来创作出吸引力十足的作品。通过明确目标、选择合适的图表类型、合理运用色彩与视觉层次、明确标注与引导视线以及引入互动性与动态效果等原则的应用,你可以显著提升你的数据可视化作品的吸引力和实用性。希望本文能为你提供一些有益的启示和帮助。
|
15天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
21天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
1天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
|
9天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
17天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
|
9天前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如&quot;How are you&quot;、&quot;I am fine&quot;、&quot;I love you&quot;等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
14天前
|
算法
基于WOA鲸鱼优化的购售电收益与风险评估算法matlab仿真
本研究提出了一种基于鲸鱼优化算法(WOA)的购售电收益与风险评估算法。通过将售电公司购售电收益风险计算公式作为WOA的目标函数,经过迭代优化计算出最优购电策略。实验结果表明,在迭代次数超过10次后,风险价值收益优化值达到1715.1万元的最大值。WOA还确定了中长期市场、现货市场及可再生能源等不同市场的最优购电量,验证了算法的有效性。核心程序使用MATLAB2022a实现,通过多次迭代优化,实现了售电公司收益最大化和风险最小化的目标。
下一篇
DataWorks