疾病关联网络构建及并发症预测模型

简介: 疾病关联网络构建及并发症预测模型

数据挖掘和分析的最核心也最重要的问题就是“预测”。广义的“预测”即包含预测事物未来走势,也包括预测事物之间隐藏的关联点击文末“阅读原文”了解更多


相关视频

image.png

例如在医疗健康领域,找到事物之间隐藏关联对于辅助诊断、知识发现等有重要的意义。

解决方案

任务/目标

从电子病历中提取患者的疾病信息,构建疾病关联网络,并据此进行并发症预测。

数据源准备

电子病历作为医疗信息的重要载体,有很大的挖掘空间和意义。同时,由于中文的多义性、表述不规范性,分析自然语言书写的电子病历也带来很大挑战。

根据提取数据要求的不同,可以采用不同方式处理中文文本。例如在这个工作中,采取中文分词、术语词典比对等方式,提取病历中关键信息。对于要求更高的数据,则可采取词向量、命名实体识别等方法提取数据特征。

 

数据清洗和初步统计

数据清洗的目的是去除无效数据、不完整数据、前后不一致数据等。

在病历数据特征提取中,去除患者隐私信息,保留基础信息,剔除无效诊断病历,剔除极罕见诊断数据(因其在病历中所占比例过小,无法进行学习和分析,存在过拟合可能)。

接下来,对数据进行初步统计形成数据概览。这一步的目的是为了加强对数据整体认识,确认数据质量,判断数据是否存在不合理的分布。

6901bfc3f468b82e2c8e897f9e1a7e5c.png

由于本项目旨在“知识发现”,因此所有数据均作为学习训练集,发现的“知识”采用发表文献验证的方式进行检验和验证。

 


点击标题查阅往期内容


R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化


左右滑动查看更多

dda4be001ff3ada18b7e8053e045ad4b.png

关联网络 构造

挖掘特征之间的关联采用基于传统Apriori的FP-growth关联规则挖掘算法。对于挖掘出的规则,置信度和提升度是重要的评价值指标。根据置信度和提升度的分布情况,设定阈值,确定哪些特征之间可能存在较强关联。

在此基础上,构建疾病关联网络。

基于链路预测技术构建预测系统

针对复杂网络中关联分析和挖掘,可以采用链路预测技术对潜在事物之间关联进行预测分析。

链路预测旨在根据观察到的网络中的链接和节点的拓扑性质,预测任意两个节点之间存在链接的可能性

关联规则挖掘结果:

在关联规则挖掘中,共计生成1800多条规则,提升度区间为0.12-60.19,置信度区间为0.01-1。下表列举10个排名靠前的关联规则:

3b34ca8267adec5b1a5c1b29bb7ea87c.png

关联网络构建结果:

构建疾病关联网络,使用cytoscape绘制网络图:

a2aeb5e3df533d70a0a2f69930cc90e4.png

单纯由图即可发现,对于大多数疾病,与其强烈相关的疾病数量并不多,而放大部分疾病关联程度较高,表明这个区域的疾病往往伴随多种临床并发症。

 

链路预测结果

在关联网络中,采用链路预测技术预测潜在的“边”(即疾病之间的关联)。

08c40caaa10e88457cd6d4e02fdd0e2f.png

结果发现呼吸系统常见病往往伴有其他呼吸系统疾病和内分泌系统疾病:

链路预测部分结果见下表:

d814742b575016ed6b56b2f0f922c31f.png 新发现的知识(疾病关联)采用文献验证的方式进行检验,发现在很多人的研究中确有相关报道,说明了预测模型的有效性。

当然,预测结果还可以通过真实病历信息进行进一步评估和分析。例如,将训练数据进行一定比例分割划分训练集和测试集,在测试集中验证预测结果的准确性。

相关文章
|
13天前
|
Kubernetes 负载均衡 网络安全
Kubernetes 网络模型与实践
【8月更文第29天】Kubernetes(K8s)是当今容器编排领域的佼佼者,它提供了一种高效的方式来管理容器化应用的部署、扩展和运行。Kubernetes 的网络模型是其成功的关键因素之一,它支持服务发现、负载均衡和集群内外通信等功能。本文将深入探讨 Kubernetes 的网络模型,并通过实际代码示例来展示服务发现和服务网格的基本概念及其实现。
33 1
|
9天前
|
网络协议 数据安全/隐私保护 网络架构
计算机网络模型
【9月更文挑战第2天】
38 24
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习模型之深度神经网络的特点
深度神经网络(Deep Neural Networks, DNNs)是一类机器学习模型,通过多个层级(层)的神经元来模拟人脑的工作方式,从而实现复杂的数据处理和模式识别任务。
8 1
|
2天前
|
数据采集 JavaScript 前端开发
构建你的首个Python网络爬虫
【9月更文挑战第8天】本文将引导你从零开始,一步步构建属于自己的Python网络爬虫。我们将通过实际的代码示例和详细的步骤解释,让你理解网络爬虫的工作原理,并学会如何使用Python编写简单的网络爬虫。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开网络数据获取的新世界。
|
3天前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
7天前
|
算法
基于GA遗传优化的离散交通网络双层规划模型设计matlab仿真
该程序基于GA遗传优化设计了离散交通网络的双层规划模型,以路段收费情况的优化为核心,并通过一氧化碳排放量评估环境影响。在MATLAB2022a版本中进行了验证,显示了系统总出行时间和区域排放最小化的过程。上层模型采用多目标优化策略,下层则确保总阻抗最小,实现整体最优解。
|
11天前
|
分布式计算 负载均衡 监控
p2p网络架构模型
P2P(Peer-to-Peer)模式是一种网络架构模型,在这种模型中,每个节点(peer)既是服务的提供者也是服务的消费者。这意味着每个参与的节点都可以直接与其他节点通信,并且可以相互提供资源和服务,例如文件共享、流媒体传输等。
19 6
|
8天前
|
网络协议 安全 网络安全
C语言 网络编程(四)常见网络模型
这段内容介绍了目前被广泛接受的三种网络模型:OSI七层模型、TCP五层模型以及TCP/IP四层模型,并简述了多个网络协议的功能与特性,包括HTTP、HTTPS、FTP、DNS、SMTP、TCP、UDP、IP、ICMP、ARP、RARP及SSH协议等,同时提到了ssh的免费开源实现openssh及其在Linux系统中的应用。
|
11天前
|
存储 传感器 物联网
|
11天前
|
监控 安全 网络协议