R语言Lasso回归模型变量选择和糖尿病发展预测模型

简介: R语言Lasso回归模型变量选择和糖尿病发展预测模型

Lease Absolute Shrinkage and Selection Operator(LASSO)在给定的模型上执行正则化和变量选择。根据惩罚项的大小,LASSO将不太相关的预测因子缩小到(可能)零。因此,它使我们能够考虑一个更简明的模型。在这组练习中,我们将在R中实现LASSO回归。

练习1

加载糖尿病数据集。这有关于糖尿病的病人水平的数据。数据为n = 442名糖尿病患者中的每个人获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值,以及感兴趣的反应,即一年后疾病进展的定量测量。"







接下来,加载包用来实现LASSO。

head(data)


向下滑动查看结果

练习2

数据集有三个矩阵x、x2和y。x是较小的自变量集,而x2包含完整的自变量集以及二次和交互项。

检查每个预测因素与因变量的关系。生成单独的散点图,所有预测因子的最佳拟合线在x中,y在纵轴上。用一个循环来自动完成这个过程。







summary(x)

for(i in 1:10){

 plot(x\[,i\], y)

 abline(lm(y~x\[,i\])

}


向下滑动查看结果

练习3

使用OLS将y与x中的预测因子进行回归。我们将用这个结果作为比较的基准。







lm(y ~ x)


向下滑动查看结果

练习4

绘制x的每个变量系数与β向量的L1准则的路径。该图表明每个系数在哪个阶段缩减为零。







plot(model_lasso)



向下滑动查看结果

练习5

得到交叉验证曲线和最小化平均交叉验证误差的lambda的值。







plot(cv_fit)


向下滑动查看结果

练习6

使用上一个练习中的lambda的最小值,得到估计的β矩阵。注意,有些系数已经缩减为零。这表明哪些预测因子在解释y的变化方面是重要的。







> fit$beta


向下滑动查看结果


练习7

为了得到一个更简明的模型,我们可以使用一个更高的λ值,即在最小值的一个标准误差之内。用这个lambda值来得到β系数。注意,现在有更多的系数被缩减为零。







lambda.1se

beta



向下滑动查看结果

练习8

如前所述,x2包含更多的预测因子。使用OLS,将y回归到x2,并评估结果。







summary(ols2)



向下滑动查看结果


练习9

对新模型重复练习-4。







lasso(x2, y)plot(model_lasso1)


向下滑动查看结果

练习10

对新模型重复练习5和6,看看哪些系数被缩减为零。当有很多候选变量时,这是缩小重要预测变量的有效方法。







plot(cv_fit1)

beta


向下滑动查看结果



相关文章
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
|
7天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
28 1
|
1天前
|
机器学习/深度学习 图计算
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
|
1天前
|
机器学习/深度学习
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(1)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
|
1天前
|
机器学习/深度学习 图计算
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
|
5天前
|
机器学习/深度学习 数据可视化
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析(上)
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
14 0
|
5天前
|
机器学习/深度学习 数据可视化 算法
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析(下)
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
12 0
|
5天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享(上)
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
17 1
|
5天前
|
机器学习/深度学习 算法 Python
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享(下)
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
13 1
|
5天前
|
机器学习/深度学习 计算机视觉
数据分享|R语言GLM广义线性模型:逻辑回归、泊松回归拟合小鼠临床试验数据(剂量和反应)示例和自测题
数据分享|R语言GLM广义线性模型:逻辑回归、泊松回归拟合小鼠临床试验数据(剂量和反应)示例和自测题
55 5

热门文章

最新文章