机器学习能诊断病情,还能预测患者出院后的情况?

简介: 机器学习正逐渐改变着各行各业,医疗行业也处于变革之中。想不到机器学习不光能诊断患者病情,还能预测患者出院后的情况呢,这个研究方向有点意思,感兴趣的读者快来瞅瞅吧!

       随着数据量以及计算机性能的不断提升,机器学习技术正逐渐渗透于各行各业中。计算机视觉、自然语言处理、机器人等领域基本上已经被机器学习算法垄断,正逐步向教育、银行、医疗等传统行业扩张。关于机器学习如何改变传统教育模式,可以参见博主的这篇文章《使用AR、AI以及大数据改革教育体系——为每位学生打造自己的私人定制学习路线》。银行业目前对人工智能炒作成分居多,大多数银行持观望态度,短时间不会利用人工智能取代大部分银行职员工作。医疗行业应用AI也比较火热,比如利用AI检测癌症驱动新药发现引擎基因检测等。而脓毒症(Sepsis)是一种医疗行业常见的并发症,本文将使用机器学习预测脓毒症患者的出院后情况。
       脓毒症是指因感染因素引起的全身炎症反应综合征,严重时可导致器官功能障碍或循环障碍,是严重创伤、烧伤、休克、感染和外科大手术等常见的并发症,因为其症状和发烧、低血压等其它常见疾病非常相像,很难被早期发现,如果不及时治疗,可进一步发展为感染性休克,其住院死亡率超过40%,相当危险。
       了解脓毒症患者的最高死亡风险对临床医生的优先护理是有帮助的。团队与Geisinger健康护理系统的研究人员合作,使用历史电子健康记录数据(EHR)建立模型来预测脓毒症住院患者在住院期间或出院后90天的全因死亡率(all-cause mortality)。该模型可以指导医疗团队为那些预测为高概率死亡的患者进行仔细监测,并采取有效预防措施。

数据科学环境

       使用IBM数据科学经验为数据科学家提供编程环境(三种流行编程语言:Python、Scala和R,两种编程分析工具:Jupyter和Zeppelin),此外,IBM数据科学经验通过业务应用程序实时或批量计分来操作模型,为连续模型检测和再训练集成反馈回路。

收集和预处理数据

       Geisinger在2006年~2016年获得了超过10000名确诊为败血症的患者数据,这些数据包含人口统计学、住院和门诊、外科手术、医疗史、药物、医院单位之间转移以及实验室结果等记录。
       对于每名患者,选择最近的医院和最相关的住院数据,包括住院期间具体的信息,比如手术类型、培养位置(细菌)等。此外,还导出了入院前的总结信息,比如住院前30天的外科手术次数等,没有使用出院后的数据。图1给出了这些基于时间数据的决策:

1


图1 基于时间序列数据做预测


       合并所提供的数据集后,得到的数据集包括10599行,其中每名患者有199个属性(特征)。

预测模型

       在数据清洗和特征选择完成后,将任务目标定义为二分类问题:预测脓毒症患者出院后90天内是否死亡。
       选择的算法为梯度提升树(Gradient boosted trees, GBT),并通过XGBoost数据包实现。由于爱算法的良好的执行速度和鲁棒性,一直是机器学习竞赛中流行使用的算法。使用XGBoots另一个动机是微调超参数以提升模型性能的能力。在训练数据中,使用十折交叉验证(ten-fold cross-validation)和网格搜索(GridSearchCV)以迭代的方式选择参数,以最大化ROC曲线下的面积(AUC)。IBM数据科学经验中的一个实例在此可见
       将数据集分为训练集和测试集,其中训练集占60%,测试集占40%。使用训练集训练模型,将训练好的模型参数应用于测试集上,模型性能如图2所示:

2


图2 XGBoost模型的性能


       图2中的一些数据是性能评价指标,比如AUC得分,这个数字越接近于1,则表示模型的能力越能正确的分类正预测(TP),从而减少假阳性。测试结果AUC数据为0.8561,表明模型能够识别出绝大多数脓毒症患者90天内是否死亡,如果预测为死亡,则这些患者可以进行适当的靶向治疗。
        对于精确率(precision)和召回率(recall),数字越接近于1,表明模型越精确。图2中显示的数据为接近于0.80,即赞成高召回率——目的是尽量减少该模型遗漏最终可能因脓毒症死亡的患者数量。
       对于另外的一个评价指标 准确度(Accuracy),使用 bootstrap对训练和测试数据生成1000个变体,然后在这些数据上运行XGBoost模型,并获得每次运行的模型准确率,1000次运行结果的准确度分布为0.77~0.79之间的概率为95%,这意味着建立的模型能够识别出超过四分之三的真实结果。
       除了以上评价指标外,模型的 混淆矩阵(confusion matrix)如图3所示。从图中可以看到,对于测试数据,模型确定了1190例患者为真阳性(预测为死亡的脓毒症患者死亡)和2087例患者为真阴性(预测为生存的脓毒症患者存活)。

3


图3 阴阳性预测


       XGBoost还具有确定特征的能力,这种能力并不告知选择的特征是否为死亡或生存的预测因子,但XGBoost生成的信息仍然非常有用,因为可以了解到哪些特征是用于预测死亡的。如图4所示,29.5%的患者都使用“入院年龄”特征来预测死亡。

4


图4 模型最重要的20个特征


       对特征进一步的探索分析,以测试特征如何与死亡结果相对应。虽然上图有助于可视化特征与结果的关系,更重要的是要了解XGBoost训练多个决策树的机制。因此,在探索过程中,XGBoost模型中的重要特征可能与这些结果变量没有明显关系。
       如图5所示,诸如“入院年龄”的特征可能表明老年患者相较于年轻患者而言具有更高的死亡比例,另一个例子“血管升压药使用时间”特征可能表明服用升压药的患者死亡率较高,但这些死亡也可能是由于其不好的健康状况导致。

5


图5 与患者死亡有关的一些重要特征


       XGBoost输出的决策树规则可以帮助医生进一步了解如何针对患者制定治疗方案。比如,由于老年患者较高的死亡风险,医疗团队可以特别关注老年患者,检测所服用的血管升压药的持续时间、尽量减少患者在各科室之间转移的次数以减少对易感染患者的影响等。

结论

       预测脓毒症患者的全因死亡可指导健康提供者主动监测并采取预防措施以提升患者的存活率。在本文模型中,选择了那些被认为与脓毒症患者死亡有关的重要特征,即机器学习模型可以帮助识别与脓毒症死亡相关联的变量。后续随着数据量的增加,将添加一些更关键特征来改进模型,也可以将该方法应用于其它病症的预测之中,希望产生一个更具可操作的模型,以改善医疗水平。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

作者信息

Ricardo Balduino,方案架构师,
个人主页:https://www.linkedin.com/in/rbalduino/
本文由阿里云云栖社区组织翻译。
文章原标题《Using Machine Learning to Predict Outcomes for Sepsis Patients》,译者:海棠,审校:Uncle_LLD。
文章为简译,更为详细的内容,请查看原文

相关文章
|
7月前
|
机器学习/深度学习 算法 数据可视化
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
309 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与机器学习在医疗诊断中的应用
【9月更文挑战第32天】随着科技的不断发展,人工智能和机器学习已经在许多领域得到了广泛应用。在医疗领域,它们正在改变着医生和患者的生活。通过分析大量的医疗数据,AI可以帮助医生更准确地诊断疾病,预测患者的病情发展,并提供个性化的治疗方案。本文将探讨人工智能和机器学习在医疗诊断中的具体应用,包括图像识别、自然语言处理和预测分析等方面。我们还将讨论AI技术面临的挑战和未来的发展趋势。
|
17天前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
52 1
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】大模型驱动下的医疗诊断应用
摘要: 随着科技的不断发展,机器学习在医疗领域的应用日益广泛。特别是在大模型的驱动下,机器学习为医疗诊断带来了革命性的变化。本文详细探讨了机器学习在医疗诊断中的应用,包括疾病预测、图像识别、基因分析等方面,并结合实际案例进行分析。同时,还展示了部分相关的代码示例,以更好地理解其工作原理。
70 3
【机器学习】大模型驱动下的医疗诊断应用
|
2月前
|
机器学习/深度学习 人工智能 算法
人工智能与机器学习在医疗诊断中的应用
【10月更文挑战第3天】人工智能与机器学习在医疗诊断中的应用
52 3
|
4月前
|
机器学习/深度学习 数据采集 人工智能
机器学习在医疗诊断中的应用:开启智慧医疗新时代
【8月更文挑战第5天】机器学习革新医疗诊断,提升精准度与效率。通过分析医学影像和基因数据,实现疾病早期检测与个性化治疗。在药物研发中,加速候选药物筛选与优化过程。智能化患者管理及智能辅助决策系统进一步增强医疗服务质量。面对数据质量和隐私保护挑战,持续技术创新推动智慧医疗发展。
|
5月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习在医疗诊断中的应用
【7月更文挑战第23天】随着人工智能技术的飞速发展,机器学习已经成为推动现代医学革新的关键力量。本文将深入探讨机器学习如何在医疗诊断领域发挥作用,包括疾病预测、影像分析以及个性化治疗等方面。通过具体案例,我们将展示机器学习技术如何提高诊断的准确性和效率,同时讨论其在实际应用中面临的挑战与限制。
|
5月前
|
机器学习/深度学习 数据采集 算法
探索机器学习在医疗诊断中的应用
【7月更文挑战第15天】在现代医学领域,机器学习技术正逐步展现出其巨大的潜力。本文将深入探讨机器学习如何助力医疗诊断,特别是在影像学和基因组学中的应用。我们将分析机器学习模型如何通过处理大量数据来辅助医生进行更准确的诊断决策,并讨论这一过程中遇到的挑战与可能的解决方案。
|
6月前
|
机器学习/深度学习 人工智能 监控
【机器学习】Python与深度学习的完美结合——深度学习在医学影像诊断中的惊人表现
【机器学习】Python与深度学习的完美结合——深度学习在医学影像诊断中的惊人表现
91 3
|
5月前
|
机器学习/深度学习 存储 算法
探索机器学习在医疗诊断中的应用
本文深入探讨了机器学习技术在医疗诊断领域的应用,并分析了其对提高诊断准确性和效率的潜力。通过对比传统诊断方法与机器学习辅助的诊断系统,揭示了后者在处理大数据、模式识别和预测疾病趋势方面的优势。同时,文章也讨论了实施机器学习解决方案时面临的挑战,包括数据隐私、算法透明度和跨领域合作的必要性。
48 0