两篇文章分别是来自NATURE COMMUNICATIONS的Early triage of critically ill COVID-19 patients using deep learning(doi:10.1038/s41467-020-17280-8)和 JAMA Internal Medicine的Development and Validation of a Clinical Risk Score to Predict the Occurrence of Critical Illness in Hospitalized Patients With COVID-19( doi:10.1001/jamainternmed.2020.2033).
LASSO+Logistic
第一篇为制定COVID-19住院患者发生危重疾病的临床风险评分并验证。
LASSO筛选重要预测指标
入院时测量的72个指标,经过LASSO回归选择,19个变量仍然是危重疾病的重要预测因子。
Logistic模型构建并验证
通过逻辑回归模型对19个变量进行再分析后,得出10个变量为重症疾病的独立预测因子。
训练集验证。
独立队列验证。
LASSO+Cox
第二篇为深度学习在新冠肺炎危重患者早期分诊中的应用。
LASSO筛选重要预测指标
入院时测量的74个指标,经过LASSO回归选择,确定了10个具有统计学意义(P<0.05)的特征。
Cox模型的建立与验证
这里作者使用了基于深度学习的生存分析 Cox 算法对这 10 项指标进行建模。相比于传统经典方法,深度学习的优势是可通过神经网络对特征进行高阶非线性组合,从而更深层次地建立特征与目标函数之间的映射。
之后,使用该模型对另外 1393 例外部患者的回溯数据分析来检验预测性能。外部测试集中 106 例发展成重症的患者中,只有 2 例存在数据异常的患者被错误划分到了低风险组。同时,该模型在不同中心的数据上获得的 C-index 均高于0.85,证明了模型的可靠性与有效性。
C-index
指一致性指数(index of concordance),通过评估模型预测结果与实际观察结果的符合程度,以评价模型的预测准确性,值越接近1,准确率越高。
AUC
指受试者工作特征曲线下面积,值在1.0和0.5之间,在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好。
绘制Nomagram图
总结
这两篇文章,都是基于Lasso回归筛选变量后构建Logistic/Cox模型并验证。因为第二篇文章多了”生存“数据,故用了Cox模型。之所以这两篇能发高分主要是时效性以及全国的样本库。细心的同学可能已经看到,这两篇文章都是同一个作者,来自广州的呼吸系统疾病国家重点实验室,也就是前几天很火的那位专硕发了80几篇sci的团队。我们虽然没有这么好的资源,但是可以学习借鉴别人的方法和套路。