今天给大家介绍华中科技大学同济医学院及剑桥大学联合发表在Nature Machine Intelligence的一篇文章。文章中作者提出了一个基于XGBoost机器学习的模型,可以提前10天以上预测患者的死亡率,准确率超过90%,从而实现对COVID-19患者的检测、早期干预,并有可能降低死亡率。
1
背景
自2019年12月以来,随着新冠肺炎疫情的大爆发,危急病例的死亡率逐渐上升,全球各个国家的医疗服务都承受了巨大压力,重症监护资源短缺。在此阶段,因为没有可用的预后生物标志物来区分需要立即就医的患者并估计其相关死亡率,所以对疾病严重程度进行快速、准确和早期的临床评估至关重要。
在这种情况下,作者回顾性分析了来自中国武汉地区的485例患者的血液样本,以确定可靠且有意义的死亡风险指标,设计了一种基于最新的可解释机器学习算法的数学建模方法,旨在识别患者死亡率的最具区别性的生物标志物。该问题即转化为分类任务,其中输入数据包括患者基本信息,症状,血液样本以及实验室检查的结果,具体到肝功能,肾脏功能,凝血功能,电解质和炎性因子,这些数据从最初的一般,严重和危重三类患者中采样(表1),也包括在检查期结束后存活或死亡对应的相关结果。最终该分类器旨在揭示最关键的生物标志物,以区分即将面临风险的患者,从而减轻临床负担并潜在地降低死亡率。
表1 患病严重情况评估标准
通过使用标准病例报告表收集病历,其中包括流行病学,人口统计学,临床,实验室和死亡率结果信息(表2和补充数据1)。临床结果随访至2020年2月24日。该研究获得同济医院伦理委员会的批准。
2
数据源
模型训练的数据来源在2020年1月10日至2月18日期间收集的所有患者的医学信息。由于来自孕妇和哺乳期妇女,小于18岁的患者以及其数据资料完整度不足80%,所以这部分数据未包括在后续分析中。而对于剩下的375例患者,经统计发现发烧是最常见的初始症状(49.9%),其次是咳嗽(13.9%),疲劳(3.7%)和呼吸困难(2.1%)。患者年龄分布为58.83±16.46岁,而男性约占59.7%。具有流行病学史的患者包括武汉居民(37.9%),家族成员(6.4%)和卫生工作者(1.9%)。具体统计结果如下表所示,在随后分析包括的375例病例中,有201例从COVID-19中康复并出院,其余174例死亡。此后,又招募了2020年2月19日至2020年2月24日期间的110名新出院或死亡的患者作为外部测试数据集进行分析。
表2 病例信息收集情况
所有485名(375+110)患者的最小、最大和中位随访时间(从入院到死亡或出院)分别为0天02:01:58(小时:分钟:秒)、35天04:05:54和11天04:15:36。在作者的研究中看到的高死亡率与同济医院收治的武汉重症和危重病例的较高比率有关。医生仅在入院时根据表1中的标准根据经验评估患者的严重程度。
图1 病人入院流程图
3
模型
3.1机器学习模型的开发
大多数病人在住院期间都采集了多个血样。然而,模型训练和测试仅使用来自最终样本的数据作为模型的输入,以评估疾病严重程度的关键生物标志物,区分需要立即医疗援助的患者,并准确地将相应的特征与每个标签匹配。尽管如此,该模型可应用于所有其他血液样本,并估计已识别生物标志物的预测潜力。缺失的数据被填充为“-1”。模型输出对应于患者死亡率。存活的病人被分为0类,死亡的病人被分为1类。
本研究使用一个有监督的XGBoost分类器作为预测模型。XGBoost是一种高性能的机器学习算法,由于其基于递归树的决策系统,其具有很好的可解释性。相比之下,黑盒建模策略的内部模型机制通常很难解释。XGBoost中每个单独特征的重要性是由它在树的每个决策步骤中的累积使用决定的。这将计算出表征每个特征的相对重要性的度量,这对于评估模型结果中最具区别性的特征特别有价值,尤其是当它们与有意义的临床参数相关时。
XGBoost最初使用以下默认参数设置进行训练:最大深度等于4,学习率等于0.2,树估计器的数量设置为150,正则化参数α的值设置为1,并且'subsample'和'colsample_bytree'都设置 到0.9以防止在具有许多特征和小样本量的情况下过度拟合。作者将其称为“Multi-tree XGBoost algorithm”。
3.2 可操作决策树的特征重要性
为了评估即将死亡风险的标记,作者评估了每个患者参数对算法决策的贡献。通过多树XGBoost根据其重要性对特征进行排序(补充图1和2以及补充算法1)。当主要特征的数量增加到四个时,模型的性能显示曲线下面积(AUC)分数没有改善。因此,关键特征的数量设置为以下三个:乳酸脱氢酶(LDH),淋巴细胞和高敏性C反应蛋白(hs-CRP)。
表3 多树XGBoost性能
表3总结了多树XGBoost模型的性能。结果表明,该模型能够准确地识别患者的结果,而无论其最初在住院时的诊断是什么。值得注意的是,外部测试集的性能类似于训练和验证集的性能,这表明该模型捕获了患者死亡率的关键生物标志物。表3进一步强调了LDH作为患者死亡率至关重要的生物标志物的重要性。
3.3临床可操作决策树的开发
根据先前关于LDH,淋巴细胞和hs-CRP重要性的发现,作者旨在构建一种简化且可在临床上应用的决策模型。XGBoost算法基于从过去的残差中建立递归决策树,并且可以识别那些对预测模型的决策贡献最大的树。决策树是由分层组织的二元决策序列组成的简单分类器。因此,如果树的准确性保持较高,则将模型的复杂性降低到这种结构就有可能揭示出一种临床上可移植的决策算法。在下文中,作者将后者称为“可解释模型”或“单树XGBoost”。
图2 决策规则
此外,针对110名患者的最新血液样本的外部测试集评估了可解释模型的性能,这些样本不是单树XGBoost模型的训练或验证的一部分。相关的混淆矩阵显示了100%的存活率预测准确性和81%的死亡率预测准确性。总体而言,生存和死亡预测,准确性,宏观和加权平均数的得分始终在0.90以上。
3.4预测范围的估计
大多数患者在整个住院期间采集了多个血样。总的来说,用于训练和验证的所有485名患者共有909个血液样本完整测量了这三个特征,外部测试数据集中的110名患者共有251个血液样本完整测量了这三个特征。作者的模型的预测潜力在所有485名患者和110名外部测试数据集中的患者的所有血液测试上进行了评估。平均而言,作者算法的准确率为90%,进一步表明该模型可以应用于任何血液样本,包括那些远远早于主要临床结果日采集的样本。平均而言,该模型可以使用所有真阳性患者的所有血液样本提前约10天(外部测试集的患者为11天)预测结果(图3b,c)。该模型甚至可以提前18天预测,累计准确率超过90%(图3d,e)。靠近患者的结果时,预测的准确率会增加。这种预测范围分析表明,在患者病情恶化的情况下,临床路径能够提前几天给临床医生发出预警。
图3 决策规则预测范围估计
4
结论
本研究利用来自中国武汉地区485名感染患者的血液样本数据库,以确定疾病死亡率的关键预测生物标志物。为此,机器学习工具选择了三种生物标记物,它们可以提前10天以上以90%以上的准确率预测单个患者的死亡率:乳酸脱氢酶(LDH)、淋巴细胞和高敏C反应蛋白(hs-CRP)。特别地,LDH水平较高似乎在区分绝大多数需要立即就医的病例中起着至关重要的作用。这一发现符合目前的医学知识,即高LDH水平与各种疾病(包括肺部疾病,如肺炎)中发生的组织分解有关。总体而言,本文提出了一个简单且可操作的决策规则可以快速预测处于最高风险的患者,从而实现对COVID-19患者的检测、早期干预,并有可能降低死亡率。