R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化

简介: R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化

这是一种拟合稀疏广义加性模型(GAM)的新方法。RGAM具有计算可扩展性,并且适用于连续、二进制、计数和生存数据点击文末“阅读原文”获取完整代码数据

相关视频

image.png

让我们生成一些数据:

R
set.seed(1)
n <- 100; p <- 12
mu = rowSums(x[, 1:3]) + f4 + f5 + f6

我们使用最基本的rgam来拟合模型:

R
fit <- rgam

下面,我们使用不同的init_nz值拟合模型:

RGAM算法第2步的自由度超参数可以通过df选项进行设置,默认值为4。以下是使用不同超参数拟合RGAM模型的示例:

R
 gamma = 0.6, df = 8

函数rgam()为一系列lambda值拟合RGAM模型,并返回一个rgam对象。

045531e06afae2870bea2240c94f3d33.png

nzero_featnzero_linnzero_nonlin键告诉我们每个lambda值包含的特征、线性组件和非线性组件的索引。

预测

可以通过使用predict方法获得此模型的预测结果:每列给出了一个lambda值的预测结果。

# 获取前5个观测值在第20个模型的预测结果
predict(fit, x[1:5, ])[, 20]

6e279eb67deebfc2f557b6c140300fe5.png

c256f64471bfba812d23134b5fd95aaf.png

例如,下面的代码给出了第20个lambda值时响应由变量5引起的组成部分:

f5 <- get

40ad881d100b4a6cd97474fd0170adcf.png

我们可以使用以下代码制作一个图表,展示变量5对响应的影响:

plot

7cc1dc4f59f1285f01c4ffce14487787.png


点击标题查阅往期内容


【视频】广义相加模型(GAM)在电力负荷预测中的应用

91e5057bdac2b7eb5d6df81ba18e6df2.png

图表和摘要

让我们再次拟合基本的rgam模型:

fit <- rga

d60a744479123356a54d02980a5632e2.png

默认情况下,plot()给出了最后一个 fit 中的 lambda键的拟合函数,并仅给出前4个特征的图表:

plot(fit

32702c1ca95827b884ff750fe116f7a4.png

用户可以使用 indexwhich 选项指定 lambda 值的索引和要显示的特征图:

plot(fit, x, in

dea7a97c52e2a6fd1c57869be32f91fd.png

线性函数以绿色呈现,非线性函数以红色呈现,而零函数以蓝色呈现。

summary 方法,允许用户查看线性和非线性特征的系数概况。在每个图表上(一个用于线性特征,一个用于非线性特征),x轴是从大到小的 xi 值,y轴是特征的系数。

summary

b5dfb197ce085aa307145a37aab08ea2.png

默认情况下,系数概况将针对所有变量进行绘制。

summary(fit


c9e14a903998585e6cdc68ac720947f6.png

a7aaf65a4ddd5cdf539caf06e8d06f4b.png


交叉验证(CV)

我们可以使用 k 折交叉验证。


cvfit <- cv.rg

我们可以通过设置 nfolds 参数来改变折数:


cvft <- cv.r

我们可以通过指定 foldid 参数来实现,其中 foldid 是一个长度为 n 的向量。

gamma = 0.6, foldid = foldid, verbose = FALSE)

cv.rgam() 调用会返回一个 cv.rgam 对象。


plot

9b364495903e393d61e2b993512b8116.png

可以从拟合的 cv.rgam 对象中进行预测。

predict(cvf s = lambda.1se

e9784bb0f5017d75c381e9b6e75aef1a.png

predict(cvfn")

25212e5c064db74f08a422c08c648318.png

其他类型的RGAM模型

在上述例子中,变量y是一个定量变量(即取值沿实数数轴)。因此,使用默认的rgam()family = "gaussian"是合适的。然而,RGAM算法非常灵活,可以在y不是定量变量时使用。

二元数据的逻辑回归

在这种情况下,响应变量y应该是一个只包含0和1的数字向量。在进行预测时,请注意,默认情况下,predict()仅返回线性预测值,即

58ac414dbe32a6ebd1397a9323bbc7aa.png

要获取预测的概率,用户必须在predict()调用中传递type = "response"

# 拟合二元模型
bin_y <-binomial", init_nz = c(), gamma = 0.9, 
              verbose = FALSE)
# 第10个模型的前5个观察值的线性预测值
predict(bi1
# 第10个模型的前5个观察值的预测概率
predict(

1502213659964cd573c612f16ca4f618.png

要获取预测速率,用户必须在predict()调用中传递type = "response"

对于泊松数据,通常允许用户传入偏移,这是一个与观测数相同长度的向量。rgam()也允许用户这样做:

# 生成数据
set.seed(5)
offset <- rnoroffset, verbose = FALSE)

请注意,如果将offset提供给rgam(),则在进行预测时必须还提供一个偏移向量给predict()

# 第20个lambda值的速率预测
predict(poifit,ponse")[,20]

e906789ab5039e0f5c32cea149bce881.png

相关文章
|
3月前
|
数据可视化 数据挖掘 图形学
R语言基础可视化:使用ggplot2构建精美图形的探索
【8月更文挑战第29天】 `ggplot2`是R语言中一个非常强大的图形构建工具,它基于图形语法提供了一种灵活且直观的方式来创建各种统计图形。通过掌握`ggplot2`的基本用法和美化技巧,你可以轻松地将复杂的数据转化为直观易懂的图形,从而更好地理解和展示你的数据分析结果。希望本文能够为你探索`ggplot2`的世界提供一些帮助和启发。
|
3月前
|
数据可视化 数据挖掘 数据处理
R语言高级可视化技巧:使用Plotly与Shiny制作互动图表
【8月更文挑战第30天】通过使用`plotly`和`shiny`,我们可以轻松地创建高度互动的数据可视化图表。这不仅增强了图表的表现力,还提高了用户与数据的交互性,使得数据探索变得更加直观和高效。本文仅介绍了基本的使用方法,`plotly`和`shiny`还提供了更多高级功能和自定义选项,等待你去探索和发现。希望这篇文章能帮助你掌握使用`plotly`和`shiny`制作互动图表的技巧,并在你的数据分析和可视化工作中发挥更大的作用。
|
2月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
3月前
|
数据可视化
R语言可视化设计原则:打造吸引力十足的数据可视化
【8月更文挑战第30天】R语言可视化设计是一个综合性的过程,需要综合运用多个设计原则来创作出吸引力十足的作品。通过明确目标、选择合适的图表类型、合理运用色彩与视觉层次、明确标注与引导视线以及引入互动性与动态效果等原则的应用,你可以显著提升你的数据可视化作品的吸引力和实用性。希望本文能为你提供一些有益的启示和帮助。
|
3月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
3月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
69 3
|
6月前
【R语言实战】——Logistic回归模型
【R语言实战】——Logistic回归模型
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
24天前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
41 3
|
6月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化