疾病关联网络构建及并发症预测模型

简介: 疾病关联网络构建及并发症预测模型

数据挖掘和分析的最核心也最重要的问题就是“预测”。广义的“预测”即包含预测事物未来走势,也包括预测事物之间隐藏的关联点击文末“阅读原文”了解更多


相关视频

image.png

例如在医疗健康领域,找到事物之间隐藏关联对于辅助诊断、知识发现等有重要的意义。

解决方案

任务/目标

从电子病历中提取患者的疾病信息,构建疾病关联网络,并据此进行并发症预测。

数据源准备

电子病历作为医疗信息的重要载体,有很大的挖掘空间和意义。同时,由于中文的多义性、表述不规范性,分析自然语言书写的电子病历也带来很大挑战。

根据提取数据要求的不同,可以采用不同方式处理中文文本。例如在这个工作中,采取中文分词、术语词典比对等方式,提取病历中关键信息。对于要求更高的数据,则可采取词向量、命名实体识别等方法提取数据特征。

 

数据清洗和初步统计

数据清洗的目的是去除无效数据、不完整数据、前后不一致数据等。

在病历数据特征提取中,去除患者隐私信息,保留基础信息,剔除无效诊断病历,剔除极罕见诊断数据(因其在病历中所占比例过小,无法进行学习和分析,存在过拟合可能)。

接下来,对数据进行初步统计形成数据概览。这一步的目的是为了加强对数据整体认识,确认数据质量,判断数据是否存在不合理的分布。

6901bfc3f468b82e2c8e897f9e1a7e5c.png

由于本项目旨在“知识发现”,因此所有数据均作为学习训练集,发现的“知识”采用发表文献验证的方式进行检验和验证。

 


点击标题查阅往期内容


R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化


左右滑动查看更多

dda4be001ff3ada18b7e8053e045ad4b.png

关联网络 构造

挖掘特征之间的关联采用基于传统Apriori的FP-growth关联规则挖掘算法。对于挖掘出的规则,置信度和提升度是重要的评价值指标。根据置信度和提升度的分布情况,设定阈值,确定哪些特征之间可能存在较强关联。

在此基础上,构建疾病关联网络。

基于链路预测技术构建预测系统

针对复杂网络中关联分析和挖掘,可以采用链路预测技术对潜在事物之间关联进行预测分析。

链路预测旨在根据观察到的网络中的链接和节点的拓扑性质,预测任意两个节点之间存在链接的可能性

关联规则挖掘结果:

在关联规则挖掘中,共计生成1800多条规则,提升度区间为0.12-60.19,置信度区间为0.01-1。下表列举10个排名靠前的关联规则:

3b34ca8267adec5b1a5c1b29bb7ea87c.png

关联网络构建结果:

构建疾病关联网络,使用cytoscape绘制网络图:

a2aeb5e3df533d70a0a2f69930cc90e4.png

单纯由图即可发现,对于大多数疾病,与其强烈相关的疾病数量并不多,而放大部分疾病关联程度较高,表明这个区域的疾病往往伴随多种临床并发症。

 

链路预测结果

在关联网络中,采用链路预测技术预测潜在的“边”(即疾病之间的关联)。

08c40caaa10e88457cd6d4e02fdd0e2f.png

结果发现呼吸系统常见病往往伴有其他呼吸系统疾病和内分泌系统疾病:

链路预测部分结果见下表:

d814742b575016ed6b56b2f0f922c31f.png 新发现的知识(疾病关联)采用文献验证的方式进行检验,发现在很多人的研究中确有相关报道,说明了预测模型的有效性。

当然,预测结果还可以通过真实病历信息进行进一步评估和分析。例如,将训练数据进行一定比例分割划分训练集和测试集,在测试集中验证预测结果的准确性。

相关文章
|
4天前
|
存储 监控 安全
单位网络监控软件:Java 技术驱动的高效网络监管体系构建
在数字化办公时代,构建基于Java技术的单位网络监控软件至关重要。该软件能精准监管单位网络活动,保障信息安全,提升工作效率。通过网络流量监测、访问控制及连接状态监控等模块,实现高效网络监管,确保网络稳定、安全、高效运行。
32 11
|
2月前
|
2月前
|
安全 网络架构
MPLS线路构建稳定、高效网络的优选方案
【10月更文挑战第17天】MPLS线路构建稳定、高效网络的优选方案
70 5
|
2天前
|
监控 安全 BI
什么是零信任模型?如何实施以保证网络安全?
随着数字化转型,网络边界不断变化,组织需采用新的安全方法。零信任基于“永不信任,永远验证”原则,强调无论内外部,任何用户、设备或网络都不可信任。该模型包括微分段、多因素身份验证、单点登录、最小特权原则、持续监控和审核用户活动、监控设备等核心准则,以实现强大的网络安全态势。
|
11天前
|
云安全 人工智能 安全
|
15天前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
42 3
|
22天前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
1月前
|
SQL 安全 前端开发
PHP与现代Web开发:构建高效的网络应用
【10月更文挑战第37天】在数字化时代,PHP作为一门强大的服务器端脚本语言,持续影响着Web开发的面貌。本文将深入探讨PHP在现代Web开发中的角色,包括其核心优势、面临的挑战以及如何利用PHP构建高效、安全的网络应用。通过具体代码示例和最佳实践的分享,旨在为开发者提供实用指南,帮助他们在不断变化的技术环境中保持竞争力。
|
2月前
|
运维 供应链 安全
SD-WAN分布式组网:构建高效、灵活的企业网络架构
本文介绍了SD-WAN(软件定义广域网)在企业分布式组网中的应用,强调其智能化流量管理、简化的网络部署、弹性扩展能力和增强的安全性等核心优势,以及在跨国企业、多云环境、零售连锁和制造业中的典型应用场景。通过合理设计网络架构、选择合适的网络连接类型、优化应用流量优先级和定期评估网络性能等最佳实践,SD-WAN助力企业实现高效、稳定的业务连接,加速数字化转型。
SD-WAN分布式组网:构建高效、灵活的企业网络架构
|
1月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
83 2