疾病关联网络构建及并发症预测模型

简介: 疾病关联网络构建及并发症预测模型

数据挖掘和分析的最核心也最重要的问题就是“预测”。广义的“预测”即包含预测事物未来走势,也包括预测事物之间隐藏的关联点击文末“阅读原文”了解更多


相关视频

image.png

例如在医疗健康领域,找到事物之间隐藏关联对于辅助诊断、知识发现等有重要的意义。

解决方案

任务/目标

从电子病历中提取患者的疾病信息,构建疾病关联网络,并据此进行并发症预测。

数据源准备

电子病历作为医疗信息的重要载体,有很大的挖掘空间和意义。同时,由于中文的多义性、表述不规范性,分析自然语言书写的电子病历也带来很大挑战。

根据提取数据要求的不同,可以采用不同方式处理中文文本。例如在这个工作中,采取中文分词、术语词典比对等方式,提取病历中关键信息。对于要求更高的数据,则可采取词向量、命名实体识别等方法提取数据特征。

 

数据清洗和初步统计

数据清洗的目的是去除无效数据、不完整数据、前后不一致数据等。

在病历数据特征提取中,去除患者隐私信息,保留基础信息,剔除无效诊断病历,剔除极罕见诊断数据(因其在病历中所占比例过小,无法进行学习和分析,存在过拟合可能)。

接下来,对数据进行初步统计形成数据概览。这一步的目的是为了加强对数据整体认识,确认数据质量,判断数据是否存在不合理的分布。

6901bfc3f468b82e2c8e897f9e1a7e5c.png

由于本项目旨在“知识发现”,因此所有数据均作为学习训练集,发现的“知识”采用发表文献验证的方式进行检验和验证。

 


点击标题查阅往期内容


R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化


左右滑动查看更多

dda4be001ff3ada18b7e8053e045ad4b.png

关联网络 构造

挖掘特征之间的关联采用基于传统Apriori的FP-growth关联规则挖掘算法。对于挖掘出的规则,置信度和提升度是重要的评价值指标。根据置信度和提升度的分布情况,设定阈值,确定哪些特征之间可能存在较强关联。

在此基础上,构建疾病关联网络。

基于链路预测技术构建预测系统

针对复杂网络中关联分析和挖掘,可以采用链路预测技术对潜在事物之间关联进行预测分析。

链路预测旨在根据观察到的网络中的链接和节点的拓扑性质,预测任意两个节点之间存在链接的可能性

关联规则挖掘结果:

在关联规则挖掘中,共计生成1800多条规则,提升度区间为0.12-60.19,置信度区间为0.01-1。下表列举10个排名靠前的关联规则:

3b34ca8267adec5b1a5c1b29bb7ea87c.png

关联网络构建结果:

构建疾病关联网络,使用cytoscape绘制网络图:

a2aeb5e3df533d70a0a2f69930cc90e4.png

单纯由图即可发现,对于大多数疾病,与其强烈相关的疾病数量并不多,而放大部分疾病关联程度较高,表明这个区域的疾病往往伴随多种临床并发症。

 

链路预测结果

在关联网络中,采用链路预测技术预测潜在的“边”(即疾病之间的关联)。

08c40caaa10e88457cd6d4e02fdd0e2f.png

结果发现呼吸系统常见病往往伴有其他呼吸系统疾病和内分泌系统疾病:

链路预测部分结果见下表:

d814742b575016ed6b56b2f0f922c31f.png 新发现的知识(疾病关联)采用文献验证的方式进行检验,发现在很多人的研究中确有相关报道,说明了预测模型的有效性。

当然,预测结果还可以通过真实病历信息进行进一步评估和分析。例如,将训练数据进行一定比例分割划分训练集和测试集,在测试集中验证预测结果的准确性。

相关文章
|
1天前
|
网络协议 Python
Python 网络编程实战:构建高效的网络应用
【5月更文挑战第18天】Python在数字化时代成为构建网络应用的热门语言,因其简洁的语法和强大功能。本文介绍了网络编程基础知识,包括TCP和UDP套接字,强调异步编程、数据压缩和连接池的关键作用。提供了一个简单的TCP服务器和客户端代码示例,并提及优化与改进方向,鼓励读者通过实践提升网络应用性能。
18 6
|
2天前
|
监控 安全 数据安全/隐私保护
企业组网:构建智慧型网络基础设施,驱动未来商业发
随着数字化进程,企业组网演变为创新与竞争力的关键。智慧型网络基础设施助力企业内部协作效率提升,外部市场拓展及应对未来挑战。核心要素包括前瞻网络架构、高性能硬件、智能化软件和全面安全。实施策略涉及明确需求、制定方案、精细化实施、全面测试及持续优化,确保网络稳定、高效、安全。
11 3
企业组网:构建智慧型网络基础设施,驱动未来商业发
|
2天前
|
算法
MATLAB|【免费】融合正余弦和柯西变异的麻雀优化算法SCSSA-CNN-BiLSTM双向长短期记忆网络预测模型
这段内容介绍了一个使用改进的麻雀搜索算法优化CNN-BiLSTM模型进行多输入单输出预测的程序。程序通过融合正余弦和柯西变异提升算法性能,主要优化学习率、正则化参数及BiLSTM的隐层神经元数量。它利用一段简单的风速数据进行演示,对比了改进算法与粒子群、灰狼算法的优化效果。代码包括数据导入、预处理和模型构建部分,并展示了优化前后的效果。建议使用高版本MATLAB运行。
|
2天前
|
监控 安全 网络安全
构建安全防线:云计算环境下的网络安全策略
【5月更文挑战第17天】随着企业数字化转型步伐的加快,云计算已成为支撑现代业务架构的关键基石。然而,云服务的广泛应用同时带来了前所未有的安全挑战。本文旨在探讨云计算环境中的网络安全问题,并提出一系列创新的安全策略,以保障数据完整性、确保服务可用性并抵御网络威胁。我们将深入分析云服务模型(IaaS, PaaS, SaaS)与相应的安全考量,探讨加密技术、身份认证、访问控制以及入侵检测等关键技术在云环境中的应用,并讨论如何通过多层次防御策略和持续监控来强化整体安全性。
|
4天前
|
SQL 安全 网络安全
构建安全防线:云计算环境中的网络安全策略与实践
【5月更文挑战第14天】 随着企业逐渐将关键业务流程迁移到云端,云计算服务的安全性成为不容忽视的重要议题。本文深入探讨了在动态且复杂的云环境中实施有效的网络安全措施的策略和技术。通过分析当前云计算模型中的安全挑战,我们提出了一系列创新的安全框架和防御机制,旨在保护数据完整性、确保业务连续性并抵御不断演变的网络威胁。文中不仅涵盖了理论分析和案例研究,还对未来云计算安全技术的发展趋势进行了预测。
|
4天前
|
域名解析 网络协议 网络虚拟化
【计算机网络】—— 中小型网络构建与配置
【计算机网络】—— 中小型网络构建与配置
6 0
|
4天前
|
SQL 安全 算法
数字堡垒的构建者:网络安全与信息安全的深层剖析
【5月更文挑战第12天】在信息技术迅猛发展的今天,网络空间已成为信息交流的重要平台。然而,随之而来的是各种网络安全漏洞和威胁的增多。本文深入探讨了网络安全漏洞的类型、成因以及预防措施,并详细分析了加密技术在保障信息安全中的应用。文章还强调了提升个人和企业安全意识的重要性,并分享了如何通过教育和培训来增强这一意识。通过对这些关键方面的知识分享,旨在为读者提供一个全面的网络安全与信息安全视角。
|
4天前
|
机器学习/深度学习 人工智能 算法
构建未来:AI驱动的自适应网络安全防御系统
【5月更文挑战第11天】在数字时代的风口浪尖,网络安全问题日益凸显。传统的安全防御手段在应对不断进化的网络威胁时显得力不从心。本文提出了一个基于人工智能技术的自适应网络安全防御系统框架,旨在通过实时分析、学习和预测网络行为,自动调整防御策略以抵御未知攻击。系统采用先进的机器学习算法和大数据分析技术,能够在保持高效性能的同时,最小化误报率。文章详细阐述了系统的设计理念、关键技术组件以及预期效果,为网络安全的未来发展方向提供新思路。
|
4天前
|
运维 安全 Linux
深入理解Docker自定义网络:构建高效的容器网络环境
深入理解Docker自定义网络:构建高效的容器网络环境
|
4天前
|
机器学习/深度学习 人工智能 安全
构建未来:AI驱动的自适应网络安全防御系统
【5月更文挑战第8天】 随着网络攻击的不断演变,传统的安全措施已不足以应对日益复杂的威胁。本文提出了一种基于人工智能(AI)的自适应网络安全防御系统,旨在通过实时分析网络流量和行为模式来自动调整安全策略。系统利用深度学习算法识别潜在威胁,并通过强化学习优化防御机制。初步实验表明,该系统能够有效提高检测率,减少误报,并在未知攻击面前展现出较强的适应性。
23 1

热门文章

最新文章