Nat Commun&JAMA INTERN MED|浅析两篇LASSO+Logistic/Cox 套路文章-阿里云开发者社区

Nat Commun&JAMA INTERN MED|浅析两篇LASSO+Logistic/Cox 套路文章

2022-06-12 339

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

公网NAT网关，每月750个小时 15CU

简介： Nat Commun&JAMA INTERN MED|浅析两篇LASSO+Logistic/Cox 套路文章

两篇文章分别是来自NATURE COMMUNICATIONS的Early triage of critically ill COVID-19 patients using deep learning(doi:10.1038/s41467-020-17280-8)和 JAMA Internal Medicine的Development and Validation of a Clinical Risk Score to Predict the Occurrence of Critical Illness in Hospitalized Patients With COVID-19( doi:10.1001/jamainternmed.2020.2033).

LASSO+Logistic

第一篇为制定COVID-19住院患者发生危重疾病的临床风险评分并验证。

LASSO筛选重要预测指标

入院时测量的72个指标，经过LASSO回归选择，19个变量仍然是危重疾病的重要预测因子。

Logistic模型构建并验证

通过逻辑回归模型对19个变量进行再分析后，得出10个变量为重症疾病的独立预测因子。

训练集验证。

独立队列验证。

LASSO+Cox

第二篇为深度学习在新冠肺炎危重患者早期分诊中的应用。

LASSO筛选重要预测指标

入院时测量的74个指标，经过LASSO回归选择，确定了10个具有统计学意义(P<0.05)的特征。

Cox模型的建立与验证

这里作者使用了基于深度学习的生存分析 Cox 算法对这 10 项指标进行建模。相比于传统经典方法，深度学习的优势是可通过神经网络对特征进行高阶非线性组合，从而更深层次地建立特征与目标函数之间的映射。

之后，使用该模型对另外 1393 例外部患者的回溯数据分析来检验预测性能。外部测试集中 106 例发展成重症的患者中，只有 2 例存在数据异常的患者被错误划分到了低风险组。同时，该模型在不同中心的数据上获得的 C-index 均高于0.85，证明了模型的可靠性与有效性。

C-index

指一致性指数（index of concordance），通过评估模型预测结果与实际观察结果的符合程度，以评价模型的预测准确性，值越接近1，准确率越高。

AUC

指受试者工作特征曲线下面积，值在1.0和0.5之间，在AUC>0.5的情况下，AUC越接近于1，说明诊断效果越好。

绘制Nomagram图

总结

这两篇文章，都是基于Lasso回归筛选变量后构建Logistic/Cox模型并验证。因为第二篇文章多了”生存“数据，故用了Cox模型。之所以这两篇能发高分主要是时效性以及全国的样本库。细心的同学可能已经看到，这两篇文章都是同一个作者，来自广州的呼吸系统疾病国家重点实验室，也就是前几天很火的那位专硕发了80几篇sci的团队。我们虽然没有这么好的资源，但是可以学习借鉴别人的方法和套路。