基于机器学习的印度肝脏病诊断分析

简介: 基于机器学习的印度肝脏病诊断分析

项目挑战

肝脏病在早期可能没有任何症状,不容易被察觉,或者症状是模糊的。肝脏病的症状和肝脏病的类型和程度高度相关,肝脏病的一般是通过肝功能测试诊断。在常见的肝功能测试诊断中,一般主要包含三大类指标:血清酶、胆红素和血清蛋白。其中,血清酶中的医学指标主要包括丙氨酸氨基转移酶、天冬氨酸氨基转移酶和碱性磷酸酶等,当肝脏细胞被破坏时,酶会被大量释放到血液中,引起指标上升。胆红素指标包括总胆红素、直接胆红素和间接胆红素等,它们反映了胆红素的代谢情况,当肝细胞变性坏死,胆红素代谢出现障碍时,胆红素指标会升高。血清蛋白指标反映了肝脏的合成功能,其包含白蛋白、球蛋白、总蛋白等,可用于检测慢性肝损伤、机体免疫等情况。早期的诊断可以提高肝脏病患者的存活率,而通过血液中酶、胆红素、血清蛋白的水平来诊断肝脏病是一个非常重要的手段。

解决方案

据来源准备

实验数据集(Indian Liver Patient Datset,,ILPD)来自美国加州大学的一个统计学习网站UCI。ILPD由三个印度教授收集自印度安得拉邦的东北部,数据集包含416位肝病患者记录和167位非肝病患者记录,包含了441位男性患者记录和142位女性患者记录,任何年龄超过89岁的患者都被列为90岁。

描述性统计分析

基于患者的生理指标和医疗检测指标来对患者的情况进行描述性分析(以下的图中1均代表患病,2均代表不患病):

图1 年龄和总蛋白的分布

从图1中可以看出患有肝脏病的人群年龄的平均水平(中位数)要比不患肝脏病的大,可能由于年龄大的人群的生活、工作压力较大,就容易患肝脏病。患有肝脏病的人群血液中的总蛋白含量与不患肝脏病的人群血液中总蛋白含量平均水平(中位数)差异并不明显,可能在判断某人是否患有心脏病时血液中总蛋白这个指标占的比重较小。

图2 白蛋白和球蛋白比率分布

从图2可以看出患有肝脏病的人群血液中白蛋白含量的平均水平(中位数)明显低于不患肝脏病的人群血液中白蛋白含量,血液中白蛋白的含量偏低可能对肝脏病的影响较大。血液中白蛋白与球蛋白的的比率表明含有肝脏病的人群的平均水平(中位数)明显低于不患肝脏病的人群,可能在判断某人是否患有肝脏病白蛋白与球蛋白这个指标比较重要。

图3 患病与性别的分布

从图3可以看出,患病人群的男性人数约为女性人数的三倍,这与现实中患有肝脏病人群的分布稍有差异,出现这种现象的原因是采集数据时男性数据占有多部分,女性采集的数据较少;其中男性中患有肝脏病与未患有肝脏病的比率约为3:7,女性中患肝病人数与未患肝病人数的比例约为4:6。性别对患病可能会有一定的影响。

图4 医疗指标的分布情况

从图4观察到患病人群的总胆红素(TBIL),直接胆红素(DBIL),碱性磷酸酶(ALP),谷丙转氨酶(ALT),天冬氨酸氨基转移酶(AST)5个特征呈现明显的右偏分布,可能是由于患有肝脏病的人群的医疗指标会高于常人。

部分实验数据

R语言建模

逻辑回归

二项逻辑回归模型(binomial logistic regression model)是一种基于逻辑斯谛分布(logistic distribution)的二分类模型,是一种有监督的机器学习方法。基本思想是比较条件概率 的大小,概率值大于0.5的属于正类,概率值小于0.5的属于负类。

随机森林

用随机的方式建立一个森林,森林由很多决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

决策树

决策树(decision tree)是可以用于分类和回归的一种有监督机器学习方法,决策树的模型以树形结构分布,可以在分类过程中对实例进行特征选择实现分类。分类决策树模型描述的是对实例进行分类的树状结构模型,决策树的结构为节点(node)和有向边(directed edge),节点又可分为叶节点(leaf node)和内部节点(internal node)。叶节点表示类,内部节点表示特征。

支持向量回归(SVR)

支持向量机(support vector machines,SVM)是Vapink在1979年发现的,1995年Vapink建议用支持向量机来进行回归和分类。支持向量机是一种有监督的机器学习算法,它的目的是找到一个最优的超平面,然后将数据划分为不同的类别。

项目结果

从模型结果可以看到,全模型似然比为0.4928,很多指标并不显著,所以考虑利用AIC和BIC做子集选择,使得到的模型更加准确,更有说服力。




相关文章
|
3月前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
416 3
|
9天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
84 15
|
14天前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
69 12
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与机器学习在医疗诊断中的应用
【9月更文挑战第32天】随着科技的不断发展,人工智能和机器学习已经在许多领域得到了广泛应用。在医疗领域,它们正在改变着医生和患者的生活。通过分析大量的医疗数据,AI可以帮助医生更准确地诊断疾病,预测患者的病情发展,并提供个性化的治疗方案。本文将探讨人工智能和机器学习在医疗诊断中的具体应用,包括图像识别、自然语言处理和预测分析等方面。我们还将讨论AI技术面临的挑战和未来的发展趋势。
|
1月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
222 5
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
133 1
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
112 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
2月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
165 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】大模型驱动下的医疗诊断应用
摘要: 随着科技的不断发展,机器学习在医疗领域的应用日益广泛。特别是在大模型的驱动下,机器学习为医疗诊断带来了革命性的变化。本文详细探讨了机器学习在医疗诊断中的应用,包括疾病预测、图像识别、基因分析等方面,并结合实际案例进行分析。同时,还展示了部分相关的代码示例,以更好地理解其工作原理。
109 3
【机器学习】大模型驱动下的医疗诊断应用
|
2月前
|
机器学习/深度学习 人工智能 算法
人工智能与机器学习在医疗诊断中的应用
【10月更文挑战第3天】人工智能与机器学习在医疗诊断中的应用
66 3