R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析

简介: R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析

特发性黄斑视网膜前膜能引起患者视物变形、变小和视力下降等视功能损害。为研究特发性黄斑视网膜前膜的危险因素,我们回顾性分析202例患者的临床资料,依据诊断分为IMEM组和对照组(非IMEM组)点击文末“阅读原文”获取完整代码数据

相关视频

image.png image.png

收集该疾病临床上常规检查的30个相关因素。我们帮助客户通过引入GroupLasso模型方法,筛选出导致疾病发生的最重要的危险因素。结果表明,糖尿病、高血压和高密度脂蛋白是影响IMEM发生的危险因素。

该研究结果将对IMEM早期诊断、早期预防、早期治疗,降低IMEM的发生率具有重要的临床意义。

背景

黄斑视网膜前膜(macular epiretinal membrane):指在黄斑区视网膜内表面生长的纤维无血管的细胞性增殖膜,类似的病名还有:视网膜前纤维增生症(preretinal fibrosis),黄斑皱缩综合症(macular pickling syndrome),玻璃纸样黄斑病变(cellophane maculopathy)及黄斑皱褶(macular pucker)等,是老年人影响视力的一个重要原因。

意义

近年来,一项来自美国6个社区的白人、黑人、西班牙人、中国人在内的流行病调查,以研究黄斑前膜的发生是否有种族差异,报道IMEM发生率为26.1%,中国人发病率最高,达39.0%。黄斑前膜日益成为威胁我国中老年人视觉质量的重要因素。

随着医疗技术的逐步完善,IMEM的诊断水平得到了提高,但一些医院因检查设备问题不能及时有效的做出诊断。由于IMEM的病因不明,考虑全身疾病和眼局部疾病相关因素等各项指标数据较多,而且各项指标间存在着噪音和数据冗余。

国内外文献综述

黄斑视网膜前膜(macular epiretinal membrane):指在黄斑区视网膜内表面生长的纤维无血管的细胞性增殖膜,类似的病名还有:视网膜前纤维增生症(preretinal fibrosis),黄斑皱缩综合症(macular pickling syndrome),玻璃纸样黄斑病变(cellophane maculopathy)及黄斑皱褶(macular pucker)等,是影响老年人视力的一个重要原因。大部分患者的黄斑视网膜前膜,形成的原因不明,称为特发性黄斑视网膜前膜(idiopathyic macular epiretinal membrane)。

国内外多研究表明,IMEM发病原因不明,患者多是年龄大于50岁的老年人,并且发病率随着年龄的增长有增加的趋势。IMEM确切的发病机制尚不清楚,主要是由来自视网膜的各类细胞及其衍生物和代谢产物构成前膜。形成与玻璃体后脱离(posterior vitreous  detachment,PVD)和来自视网膜的细胞向黄斑区的迁移、积聚,这些细胞最终形成具有收缩能力的纤维膜,引起一系列的黄斑区视网膜形态和功能的变化。

研究的问题

本文主要研究的问题是:解决变量选择问题,综合考虑临床工作中常规检测到的相关因素以及相关因素之间的交互作用,从众多变量中筛选出对发生IMEM有显著影响的变量。

研究内容与思路

ecbbdc9e9633592795176d266bf63785.png



相关因素选择的基本问题

我们常用的就是分类器的精确度(accuracy),在某些如推荐或信息获取领域还会组合使用precision-recall作为评价指标。因为你用于训练分类器的样本本身就是总体的一个抽样,所以这些指标的数值也仅仅是一种统计上的反映,如果你做多次抽样训练,跟别的随机变量一样,它一样会有期望、方差、置信区间这些概念。理论上说,训练样本量越大,你得到的这些指标的可信度就越高(即它们以某个概率落在的置信区间越窄)。不幸的是,实际中你未必会有那么多的样本,所以机器学习工作者设计出很多种方法来应对数据量不足情况下分类器的训练与评估,如k步交叉检验、留1法、boostrap等等。

模型的引入

套索(lasso)是回归模型的变量选择方法,最初应用于普通最小二乘法(OLS)回归。套索最好被描述在模型参数,其中具有特定常数作为上限的绝对值和的约束。相比OLS参数估计,使用Lasso获得的估计通常是更准确,允许该模型的更好的解释。

特发性黄斑视网膜前膜发生相关因素实证分析

本文研究数据选取我院2014年4月- 2016年4月收治的经我院确诊的特发性黄斑视网膜前膜单眼发病患者101 例(101眼) 作为观察组,另选取于我院就诊的无黄斑区病变的其他患者101 例(101眼) 作为对照组。

正常眼底黄斑OCT图像:

0c62cbf583a6220598e2512ad4b6ccf8.png

同一患者左眼IMEM彩色眼底照:

48e9f73d5413e7596122cad1d44e643a.png

e364a34ef14cad88528f0df06a6a5863.png

数据说明与处理

本研究采取回顾性病例分析,调查所有病例的眼部病史(白内障、青光眼)、一般情况(年龄、性别、文化程度、职业),生活方式(如吸烟、饮酒、睡眠状况、用眼情况),测量体重,腰围。全身系统性疾病( 糖尿病、高血压、LDL、HDL、血管疾病、消化系统、泌尿系统、精神系统疾病)和服用降压药、降糖药、调脂药、镇静催眠药、镇痛药、溶栓药等用药史,并进行数据统计,分析IMEM的相关因素。特发性黄斑视网膜前膜的相关因素共有30个,包括3个连续变量,5个多分类变量,22个二分类变量。

3f0e1d814a9ed8183f944f6ca7c303bd.png

eb87a078b59a5bbef29cc9c27dbf3625.png

数据描述与分析

2c66f3e8d9d14a446802ea35638f7229.png

ad1b6e0c8959d65281ca629af99d2c67.png

6b3715d1f227fc2cc12a1b0d35bfae36.png

特发性黄斑视网膜前膜相关因素数据特征:

ddply(data, .(IMEM), summarise,
      mean_sex = mean(sex),
      median_sex = median(sex),
      mean_age = mean(age),

98b083aa5bc0aee6307ce213e8aedcea.png

MEM组与非 IMEM组 3个相关因素指标分布箱图


29c48bac34ef11f9906857544233f65e.png da104e2d860d6fc9b6f4d18ac53523a0.png

变量选择和参数估计

使用 R 中的 glmnet 包进行由成组Lasso选出协变量的Logistic模型,通过10折交叉验证,选出最优的λ和最佳cutoff 值,使得 MSE最小。再将 cutoff 值代入模型,选出最重要的变量。最终糖尿病(DM2),高血压(HP2),低密度脂蛋白(LDL)三个变量被选出。其中带+号的表示 IMEM发生的危险因素,带-号的表示 IMEM发生的保护因素。此时的λ为 0.06。三个选出的变量的系数分别为 0.74,0.93, 1.12。

glmnet(xmat, y, alpha = 1)

使用岭迹法对岭迹图进行分析:

岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计值以及正负号不符合经济意义,则希望能通过采用适当的k值来加以一定程度的改善,k值得选择就显得尤为重要。

2daa5f97cff936de3e725b29bef978d5.png


预测

通过由成组Lasso选出协变量的Logistic模型分析,最终2型糖尿病(DM2),高血压2期(HP2),低密度脂蛋白(LDL)三个变量被选出。

9260d47e86b0e6e3a41256ec7ef93a29.png

通过预测结果可以看出,TPR 达到了 96.96%,TNR 达到了 97.1%,FPR 为2.9%,FNR 为 3.03%,说明本文的Logistic预测模型拟合的很好,对解决实际问题很有意义。

模型比较

本文通过交叉验证的方法,选择最优的参数,使得 AUC指标最大。选出了影响 IMEM发生的三个重要因素。不仅增加了模型的可解释性,也增加了判别准则的灵敏度,使得有更多的 IMEM潜在患者被筛选出来。

下面考虑以下两种情景

(1)包含所有待选协变量的Logistic模型,使用0.5做 cutoff 值。

(2)仅包含由成组Lasso选出协变量的Logistic模型,使用0.5作 cutoff 值。

将这两种情景与本文提出的方法作比较,得出的结果如下表所示:

在本研究中,研究者利用二分类响应变量和30个待选协变量(连续、二分类、多分类有序)建立模型。为了比较不同调整参数筛选解释变量的效果,建立如下三个包含不同协变量的模型并通过十折交叉验证计算判断误差:

1)模型I:包含所有待选协变量的Logistic模型;

2)模型II:成组Lasso Logistic模型;

3)模型III:仅包含由成组Lasso选出协变量的Logistic模型。

图是三个模型误差曲线图,模型I 的误差为20.6%,模型III 的误差为4.9%,模型II的误差介于二者之间,为20.0%。

38f2c900a0201a8f21e131f08fed0116.png

参考文献

[1].       陈钦元.黄斑部视网膜前膜[M]聂爱光.现代黄斑疾病诊断治疗                                   学.北京: 北京医科大学、中国协和医科大学联合出版社,1996:131-135.

[2].       Lan-Hsin Chuang , Nan-Kai Wang , Yen-Po Chen b,et al. Comparison of visual outcomes after epiretinal membrane surgery[J].Taiwan Journal of Ophthalmology 2 (2012):56-59.

[3].       邢晓利,梁勇.光学相干断层扫描在玻璃体黄斑界面疾病中的临床应用进展[J]. 国际眼科杂志,2013,13(8):1583-1585.

[4].       Minchiotti S,Stampachiacchiere B,Micera A,et al.Human idiopathic epiretinal membranes express NGF and NGF receptors [J].Retina,208,28(4):628-637.

[5].       Kawasaki R,Wang JJ,Mitchell P,et a1.Racial difference in the prevalence of epiretinal membrane between Caucasians and Asians[J].Br J Ophthalmol,2008,92(10):1320—1324.


相关文章
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
24天前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
41 3
|
2月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
3月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
3月前
|
机器学习/深度学习 资源调度 算法
R语言逻辑回归与分类模型的深度探索与应用
【8月更文挑战第31天】逻辑回归作为一种经典的分类算法,在R语言中通过`glm()`函数可以轻松实现。其简单、高效且易于解释的特点,使得它在处理二分类问题时具有广泛的应用价值。然而,值得注意的是,逻辑回归在处理非线性关系或复杂交互作用时可能表现不佳,此时可能需要考虑其他更复杂的分类模型。
|
3月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
6月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
6月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
3月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
69 3