R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析

简介: R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析

特发性黄斑视网膜前膜能引起患者视物变形、变小和视力下降等视功能损害。为研究特发性黄斑视网膜前膜的危险因素,我们回顾性分析202例患者的临床资料,依据诊断分为IMEM组和对照组(非IMEM组)点击文末“阅读原文”获取完整代码数据

相关视频

image.png image.png

收集该疾病临床上常规检查的30个相关因素。我们帮助客户通过引入GroupLasso模型方法,筛选出导致疾病发生的最重要的危险因素。结果表明,糖尿病、高血压和高密度脂蛋白是影响IMEM发生的危险因素。

该研究结果将对IMEM早期诊断、早期预防、早期治疗,降低IMEM的发生率具有重要的临床意义。

背景

黄斑视网膜前膜(macular epiretinal membrane):指在黄斑区视网膜内表面生长的纤维无血管的细胞性增殖膜,类似的病名还有:视网膜前纤维增生症(preretinal fibrosis),黄斑皱缩综合症(macular pickling syndrome),玻璃纸样黄斑病变(cellophane maculopathy)及黄斑皱褶(macular pucker)等,是老年人影响视力的一个重要原因。

意义

近年来,一项来自美国6个社区的白人、黑人、西班牙人、中国人在内的流行病调查,以研究黄斑前膜的发生是否有种族差异,报道IMEM发生率为26.1%,中国人发病率最高,达39.0%。黄斑前膜日益成为威胁我国中老年人视觉质量的重要因素。

随着医疗技术的逐步完善,IMEM的诊断水平得到了提高,但一些医院因检查设备问题不能及时有效的做出诊断。由于IMEM的病因不明,考虑全身疾病和眼局部疾病相关因素等各项指标数据较多,而且各项指标间存在着噪音和数据冗余。

国内外文献综述

黄斑视网膜前膜(macular epiretinal membrane):指在黄斑区视网膜内表面生长的纤维无血管的细胞性增殖膜,类似的病名还有:视网膜前纤维增生症(preretinal fibrosis),黄斑皱缩综合症(macular pickling syndrome),玻璃纸样黄斑病变(cellophane maculopathy)及黄斑皱褶(macular pucker)等,是影响老年人视力的一个重要原因。大部分患者的黄斑视网膜前膜,形成的原因不明,称为特发性黄斑视网膜前膜(idiopathyic macular epiretinal membrane)。

国内外多研究表明,IMEM发病原因不明,患者多是年龄大于50岁的老年人,并且发病率随着年龄的增长有增加的趋势。IMEM确切的发病机制尚不清楚,主要是由来自视网膜的各类细胞及其衍生物和代谢产物构成前膜。形成与玻璃体后脱离(posterior vitreous  detachment,PVD)和来自视网膜的细胞向黄斑区的迁移、积聚,这些细胞最终形成具有收缩能力的纤维膜,引起一系列的黄斑区视网膜形态和功能的变化。

研究的问题

本文主要研究的问题是:解决变量选择问题,综合考虑临床工作中常规检测到的相关因素以及相关因素之间的交互作用,从众多变量中筛选出对发生IMEM有显著影响的变量。

研究内容与思路

ecbbdc9e9633592795176d266bf63785.png



相关因素选择的基本问题

我们常用的就是分类器的精确度(accuracy),在某些如推荐或信息获取领域还会组合使用precision-recall作为评价指标。因为你用于训练分类器的样本本身就是总体的一个抽样,所以这些指标的数值也仅仅是一种统计上的反映,如果你做多次抽样训练,跟别的随机变量一样,它一样会有期望、方差、置信区间这些概念。理论上说,训练样本量越大,你得到的这些指标的可信度就越高(即它们以某个概率落在的置信区间越窄)。不幸的是,实际中你未必会有那么多的样本,所以机器学习工作者设计出很多种方法来应对数据量不足情况下分类器的训练与评估,如k步交叉检验、留1法、boostrap等等。

模型的引入

套索(lasso)是回归模型的变量选择方法,最初应用于普通最小二乘法(OLS)回归。套索最好被描述在模型参数,其中具有特定常数作为上限的绝对值和的约束。相比OLS参数估计,使用Lasso获得的估计通常是更准确,允许该模型的更好的解释。

特发性黄斑视网膜前膜发生相关因素实证分析

本文研究数据选取我院2014年4月- 2016年4月收治的经我院确诊的特发性黄斑视网膜前膜单眼发病患者101 例(101眼) 作为观察组,另选取于我院就诊的无黄斑区病变的其他患者101 例(101眼) 作为对照组。

正常眼底黄斑OCT图像:

0c62cbf583a6220598e2512ad4b6ccf8.png

同一患者左眼IMEM彩色眼底照:

48e9f73d5413e7596122cad1d44e643a.png

e364a34ef14cad88528f0df06a6a5863.png

数据说明与处理

本研究采取回顾性病例分析,调查所有病例的眼部病史(白内障、青光眼)、一般情况(年龄、性别、文化程度、职业),生活方式(如吸烟、饮酒、睡眠状况、用眼情况),测量体重,腰围。全身系统性疾病( 糖尿病、高血压、LDL、HDL、血管疾病、消化系统、泌尿系统、精神系统疾病)和服用降压药、降糖药、调脂药、镇静催眠药、镇痛药、溶栓药等用药史,并进行数据统计,分析IMEM的相关因素。特发性黄斑视网膜前膜的相关因素共有30个,包括3个连续变量,5个多分类变量,22个二分类变量。

3f0e1d814a9ed8183f944f6ca7c303bd.png

eb87a078b59a5bbef29cc9c27dbf3625.png

数据描述与分析

2c66f3e8d9d14a446802ea35638f7229.png

ad1b6e0c8959d65281ca629af99d2c67.png

6b3715d1f227fc2cc12a1b0d35bfae36.png

特发性黄斑视网膜前膜相关因素数据特征:

ddply(data, .(IMEM), summarise,
      mean_sex = mean(sex),
      median_sex = median(sex),
      mean_age = mean(age),

98b083aa5bc0aee6307ce213e8aedcea.png

MEM组与非 IMEM组 3个相关因素指标分布箱图


29c48bac34ef11f9906857544233f65e.png da104e2d860d6fc9b6f4d18ac53523a0.png

变量选择和参数估计

使用 R 中的 glmnet 包进行由成组Lasso选出协变量的Logistic模型,通过10折交叉验证,选出最优的λ和最佳cutoff 值,使得 MSE最小。再将 cutoff 值代入模型,选出最重要的变量。最终糖尿病(DM2),高血压(HP2),低密度脂蛋白(LDL)三个变量被选出。其中带+号的表示 IMEM发生的危险因素,带-号的表示 IMEM发生的保护因素。此时的λ为 0.06。三个选出的变量的系数分别为 0.74,0.93, 1.12。

glmnet(xmat, y, alpha = 1)

使用岭迹法对岭迹图进行分析:

岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计值以及正负号不符合经济意义,则希望能通过采用适当的k值来加以一定程度的改善,k值得选择就显得尤为重要。

2daa5f97cff936de3e725b29bef978d5.png


预测

通过由成组Lasso选出协变量的Logistic模型分析,最终2型糖尿病(DM2),高血压2期(HP2),低密度脂蛋白(LDL)三个变量被选出。

9260d47e86b0e6e3a41256ec7ef93a29.png

通过预测结果可以看出,TPR 达到了 96.96%,TNR 达到了 97.1%,FPR 为2.9%,FNR 为 3.03%,说明本文的Logistic预测模型拟合的很好,对解决实际问题很有意义。

模型比较

本文通过交叉验证的方法,选择最优的参数,使得 AUC指标最大。选出了影响 IMEM发生的三个重要因素。不仅增加了模型的可解释性,也增加了判别准则的灵敏度,使得有更多的 IMEM潜在患者被筛选出来。

下面考虑以下两种情景

(1)包含所有待选协变量的Logistic模型,使用0.5做 cutoff 值。

(2)仅包含由成组Lasso选出协变量的Logistic模型,使用0.5作 cutoff 值。

将这两种情景与本文提出的方法作比较,得出的结果如下表所示:

在本研究中,研究者利用二分类响应变量和30个待选协变量(连续、二分类、多分类有序)建立模型。为了比较不同调整参数筛选解释变量的效果,建立如下三个包含不同协变量的模型并通过十折交叉验证计算判断误差:

1)模型I:包含所有待选协变量的Logistic模型;

2)模型II:成组Lasso Logistic模型;

3)模型III:仅包含由成组Lasso选出协变量的Logistic模型。

图是三个模型误差曲线图,模型I 的误差为20.6%,模型III 的误差为4.9%,模型II的误差介于二者之间,为20.0%。

38f2c900a0201a8f21e131f08fed0116.png

参考文献

[1].       陈钦元.黄斑部视网膜前膜[M]聂爱光.现代黄斑疾病诊断治疗                                   学.北京: 北京医科大学、中国协和医科大学联合出版社,1996:131-135.

[2].       Lan-Hsin Chuang , Nan-Kai Wang , Yen-Po Chen b,et al. Comparison of visual outcomes after epiretinal membrane surgery[J].Taiwan Journal of Ophthalmology 2 (2012):56-59.

[3].       邢晓利,梁勇.光学相干断层扫描在玻璃体黄斑界面疾病中的临床应用进展[J]. 国际眼科杂志,2013,13(8):1583-1585.

[4].       Minchiotti S,Stampachiacchiere B,Micera A,et al.Human idiopathic epiretinal membranes express NGF and NGF receptors [J].Retina,208,28(4):628-637.

[5].       Kawasaki R,Wang JJ,Mitchell P,et a1.Racial difference in the prevalence of epiretinal membrane between Caucasians and Asians[J].Br J Ophthalmol,2008,92(10):1320—1324.


相关文章
|
4天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
4天前
【R语言实战】——Logistic回归模型
【R语言实战】——Logistic回归模型
|
4天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
4天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
4天前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
4天前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
4天前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
4天前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
4天前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
4天前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

热门文章

最新文章