机器学习能诊断病情,还能预测患者出院后的情况?

简介: 机器学习正逐渐改变着各行各业,医疗行业也处于变革之中。想不到机器学习不光能诊断患者病情,还能预测患者出院后的情况呢,这个研究方向有点意思,感兴趣的读者快来瞅瞅吧!

       随着数据量以及计算机性能的不断提升,机器学习技术正逐渐渗透于各行各业中。计算机视觉、自然语言处理、机器人等领域基本上已经被机器学习算法垄断,正逐步向教育、银行、医疗等传统行业扩张。关于机器学习如何改变传统教育模式,可以参见博主的这篇文章《使用AR、AI以及大数据改革教育体系——为每位学生打造自己的私人定制学习路线》。银行业目前对人工智能炒作成分居多,大多数银行持观望态度,短时间不会利用人工智能取代大部分银行职员工作。医疗行业应用AI也比较火热,比如利用AI检测癌症驱动新药发现引擎基因检测等。而脓毒症(Sepsis)是一种医疗行业常见的并发症,本文将使用机器学习预测脓毒症患者的出院后情况。
       脓毒症是指因感染因素引起的全身炎症反应综合征,严重时可导致器官功能障碍或循环障碍,是严重创伤、烧伤、休克、感染和外科大手术等常见的并发症,因为其症状和发烧、低血压等其它常见疾病非常相像,很难被早期发现,如果不及时治疗,可进一步发展为感染性休克,其住院死亡率超过40%,相当危险。
       了解脓毒症患者的最高死亡风险对临床医生的优先护理是有帮助的。团队与Geisinger健康护理系统的研究人员合作,使用历史电子健康记录数据(EHR)建立模型来预测脓毒症住院患者在住院期间或出院后90天的全因死亡率(all-cause mortality)。该模型可以指导医疗团队为那些预测为高概率死亡的患者进行仔细监测,并采取有效预防措施。

数据科学环境

       使用IBM数据科学经验为数据科学家提供编程环境(三种流行编程语言:Python、Scala和R,两种编程分析工具:Jupyter和Zeppelin),此外,IBM数据科学经验通过业务应用程序实时或批量计分来操作模型,为连续模型检测和再训练集成反馈回路。

收集和预处理数据

       Geisinger在2006年~2016年获得了超过10000名确诊为败血症的患者数据,这些数据包含人口统计学、住院和门诊、外科手术、医疗史、药物、医院单位之间转移以及实验室结果等记录。
       对于每名患者,选择最近的医院和最相关的住院数据,包括住院期间具体的信息,比如手术类型、培养位置(细菌)等。此外,还导出了入院前的总结信息,比如住院前30天的外科手术次数等,没有使用出院后的数据。图1给出了这些基于时间数据的决策:

1


图1 基于时间序列数据做预测


       合并所提供的数据集后,得到的数据集包括10599行,其中每名患者有199个属性(特征)。

预测模型

       在数据清洗和特征选择完成后,将任务目标定义为二分类问题:预测脓毒症患者出院后90天内是否死亡。
       选择的算法为梯度提升树(Gradient boosted trees, GBT),并通过XGBoost数据包实现。由于爱算法的良好的执行速度和鲁棒性,一直是机器学习竞赛中流行使用的算法。使用XGBoots另一个动机是微调超参数以提升模型性能的能力。在训练数据中,使用十折交叉验证(ten-fold cross-validation)和网格搜索(GridSearchCV)以迭代的方式选择参数,以最大化ROC曲线下的面积(AUC)。IBM数据科学经验中的一个实例在此可见
       将数据集分为训练集和测试集,其中训练集占60%,测试集占40%。使用训练集训练模型,将训练好的模型参数应用于测试集上,模型性能如图2所示:

2


图2 XGBoost模型的性能


       图2中的一些数据是性能评价指标,比如AUC得分,这个数字越接近于1,则表示模型的能力越能正确的分类正预测(TP),从而减少假阳性。测试结果AUC数据为0.8561,表明模型能够识别出绝大多数脓毒症患者90天内是否死亡,如果预测为死亡,则这些患者可以进行适当的靶向治疗。
        对于精确率(precision)和召回率(recall),数字越接近于1,表明模型越精确。图2中显示的数据为接近于0.80,即赞成高召回率——目的是尽量减少该模型遗漏最终可能因脓毒症死亡的患者数量。
       对于另外的一个评价指标 准确度(Accuracy),使用 bootstrap对训练和测试数据生成1000个变体,然后在这些数据上运行XGBoost模型,并获得每次运行的模型准确率,1000次运行结果的准确度分布为0.77~0.79之间的概率为95%,这意味着建立的模型能够识别出超过四分之三的真实结果。
       除了以上评价指标外,模型的 混淆矩阵(confusion matrix)如图3所示。从图中可以看到,对于测试数据,模型确定了1190例患者为真阳性(预测为死亡的脓毒症患者死亡)和2087例患者为真阴性(预测为生存的脓毒症患者存活)。

3


图3 阴阳性预测


       XGBoost还具有确定特征的能力,这种能力并不告知选择的特征是否为死亡或生存的预测因子,但XGBoost生成的信息仍然非常有用,因为可以了解到哪些特征是用于预测死亡的。如图4所示,29.5%的患者都使用“入院年龄”特征来预测死亡。

4


图4 模型最重要的20个特征


       对特征进一步的探索分析,以测试特征如何与死亡结果相对应。虽然上图有助于可视化特征与结果的关系,更重要的是要了解XGBoost训练多个决策树的机制。因此,在探索过程中,XGBoost模型中的重要特征可能与这些结果变量没有明显关系。
       如图5所示,诸如“入院年龄”的特征可能表明老年患者相较于年轻患者而言具有更高的死亡比例,另一个例子“血管升压药使用时间”特征可能表明服用升压药的患者死亡率较高,但这些死亡也可能是由于其不好的健康状况导致。

5


图5 与患者死亡有关的一些重要特征


       XGBoost输出的决策树规则可以帮助医生进一步了解如何针对患者制定治疗方案。比如,由于老年患者较高的死亡风险,医疗团队可以特别关注老年患者,检测所服用的血管升压药的持续时间、尽量减少患者在各科室之间转移的次数以减少对易感染患者的影响等。

结论

       预测脓毒症患者的全因死亡可指导健康提供者主动监测并采取预防措施以提升患者的存活率。在本文模型中,选择了那些被认为与脓毒症患者死亡有关的重要特征,即机器学习模型可以帮助识别与脓毒症死亡相关联的变量。后续随着数据量的增加,将添加一些更关键特征来改进模型,也可以将该方法应用于其它病症的预测之中,希望产生一个更具可操作的模型,以改善医疗水平。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

作者信息

Ricardo Balduino,方案架构师,
个人主页:https://www.linkedin.com/in/rbalduino/
本文由阿里云云栖社区组织翻译。
文章原标题《Using Machine Learning to Predict Outcomes for Sepsis Patients》,译者:海棠,审校:Uncle_LLD。
文章为简译,更为详细的内容,请查看原文

相关文章
|
6天前
|
机器学习/深度学习 算法 数据可视化
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
104 1
|
9月前
|
机器学习/深度学习 数据采集 算法
机器学习-模型拟合:如何使用逻辑回归精准预测临床诊断结果?
本文旨在介绍逻辑回归模型在临床诊断结果预测中的应用,并探讨相关需求和挑战。首先,将详细介绍逻辑回归模型的原理和特点,以及其在机器学习中的地位和应用范围。接着,将阐述临床诊断结果预测的重要性和现实需求,以及逻辑回归模型如何满足这些需求。
286 0
|
6天前
|
机器学习/深度学习 数据采集 算法
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
数据分享|R语言机器学习预测案例合集:众筹平台、机票折扣、糖尿病患者、员工满意度
|
6天前
|
机器学习/深度学习 数据采集 算法
机器学习-深度学习:如何使用SuperLearner精准诊断?
机器学习-深度学习:如何使用SuperLearner精准诊断?
44 0
|
6天前
|
机器学习/深度学习 数据采集 算法
机器学习赋能乳腺癌预测:如何使用贝叶斯分级进行精确诊断?
机器学习赋能乳腺癌预测:如何使用贝叶斯分级进行精确诊断?
44 0
|
9月前
|
机器学习/深度学习 数据采集 人工智能
机器学习-深度学习:如何使用卷积神经网络精准诊断?
机器学习是一种人工智能的分支,它致力于通过从数据中学习模式和规律,使机器能够自动完成特定任务。深度学习则是机器学习的一个重要分支,它以神经网络为基础,通过多个神经网络层的组合和训练来实现高级特征的提取和学习。
112 0
|
11月前
|
机器学习/深度学习 开发者
机器学习在医疗图像分析中的应用:病灶检测和诊断
随着机器学习技术的迅猛发展,医疗图像分析领域也迎来了重大突破。机器学习在医学影像中的应用,尤其是病灶检测和诊断方面,已经取得了令人瞩目的成果。本文将深入探讨机器学习在医疗图像分析中的应用,重点关注病灶检测和诊断,以及相关的技术和挑战。
297 0
|
机器学习/深度学习 移动开发 Windows
机器学习奥林匹克-身体健康与幸福之心脏病预测
机器学习奥林匹克-身体健康与幸福之心脏病预测
290 0
机器学习奥林匹克-身体健康与幸福之心脏病预测
|
机器学习/深度学习 数据处理
机器学习——PM2.5预测白话
本项目仅用于参考,提供思路和想法并非标准答案!请谨慎抄袭!
376 0
机器学习——PM2.5预测白话
|
机器学习/深度学习 数据采集 人工智能
就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵
本文使用机器学习建模对 FIFA 2022世界杯结果进行了预测,赛后将其与真实结果进行比较,可以看出:小组赛到1/4决赛的预测准确率很高,半决赛和决赛的预测准确率为0,冠亚季军无一预测准确。
121 0
就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵

热门文章

最新文章