通过机器学习让医疗数据更好用

简介: 欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!在过去 10 年间,医疗数据已经从以纸质文件为主几乎完全数字化为电子健康记录。

欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!

在过去 10 年间,医疗数据已经从以纸质文件为主几乎完全数字化为电子健康记录。但是,理解这些数据涉及一些关键挑战。

第一,供应商之间没有共同的数据表示形式;每个供应商都使用不同的方式来构建他们的数据。第二,即使使用相同供应商的网站也可能存在很大不同,例如,他们通常为同一种药物使用不同的代码。第三,数据可能分布在多个表格中,一些表格包含患者就医记录,一些包含实验室结果,其他的则包含生命体征数据。

快速医疗互操作性资源 (FHIR) 标准解决了其中的大多数挑战:它具有一个坚实并且可扩展的数据模型并基于成熟的网络标准构建,正在快速成为个体记录和批量数据访问的事实标准。但是,为了实现大规模机器学习,我们需要一些补充:各种编程语言的实现,将大量数据序列化到磁盘的有效方法,以及允许分析大型数据集的表示形式。

我们高兴地开源 FHIR 标准的一种 Protocol Buffers (简称 Protobuf) 实现,它可以解决这些问题。当前版本支持 Java,并且将很快支持 C++、Go 和 Python。对配置文件的支持也即将发布,还会推出一些工具,帮助用户将旧数据转换成 FHIR:

https://github.com/google/fhir

将 FHIR 用作核心数据模型

过去几年,我们一直与众多学术医疗中心合作,将机器学习应用于匿名病历,我们需要正面解决医疗数据的复杂性,这一点已经变得非常明显。确实,要让机器学习有效用于医疗数据,我们需要从整体上了解每名患者随着时间推移的情况。作为奖励,我们想要一种可以直接用于临床环境的数据表示形式。

尽管 FHIR 标准可以解决我们的大多数需求,但是为了使医疗数据比“旧”数据结构更加易于管理和确保大规模机器学习不依赖于供应商,我们认为引入 Protobuf 可以帮助应用开发者和(机器学习)研究人员使用 FHIR。

当前版本的 Protobuf

为了让我们的 Protobuf 表示适合编程访问和数据库查询,我们做了大量工作。提供的一个示例显示了如何将 FHIR 数据上传到 Google Cloud BigQuery 中并让它可以用于查询,我们将添加直接从批量数据导出上传的其他示例。我们的 Protobuf 符合 FHIR 标准(这些缓冲区实际上是从此标准自动生成的),但可以实现更高级的查询。

当前版本还不可以用于训练 TensorFlow 模型,不过,敬请关注未来更新。我们打算开源尽可能多的近期工作,以便提升我们的研究在现实世界情景中的重现性和适用性。此外,我们还在与 Google Cloud 团队的同事紧密合作,推出更多用于管理大规模医疗数据的工具:

https://github.com/GoogleCloudPlatform/healthcare

欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!

目录
相关文章
|
9月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
761 8
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
647 88
|
机器学习/深度学习 算法 数据挖掘
PyTabKit:比sklearn更强大的表格数据机器学习框架
PyTabKit是一个专为表格数据设计的新兴机器学习框架,集成了RealMLP等先进深度学习技术与优化的GBDT超参数配置。相比传统Scikit-Learn,PyTabKit通过元级调优的默认参数设置,在无需复杂超参调整的情况下,显著提升中大型数据集的性能表现。其简化API设计、高效训练速度和多模型集成能力,使其成为企业决策与竞赛建模的理想工具。
565 12
PyTabKit:比sklearn更强大的表格数据机器学习框架
|
机器学习/深度学习 数据采集 算法
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
1125 36
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
439 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与机器学习在医疗诊断中的应用
【9月更文挑战第32天】随着科技的不断发展,人工智能和机器学习已经在许多领域得到了广泛应用。在医疗领域,它们正在改变着医生和患者的生活。通过分析大量的医疗数据,AI可以帮助医生更准确地诊断疾病,预测患者的病情发展,并提供个性化的治疗方案。本文将探讨人工智能和机器学习在医疗诊断中的具体应用,包括图像识别、自然语言处理和预测分析等方面。我们还将讨论AI技术面临的挑战和未来的发展趋势。
|
人工智能 Kubernetes Cloud Native
跨越鸿沟:PAI-DSW 支持动态数据挂载新体验
本文讲述了如何在 PAI-DSW 中集成和利用 Fluid 框架,以及通过动态挂载技术实现 OSS 等存储介质上数据集的快速接入和管理。通过案例演示,进一步展示了动态挂载功能的实际应用效果和优势。
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
1420 0
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】大模型驱动下的医疗诊断应用
摘要: 随着科技的不断发展,机器学习在医疗领域的应用日益广泛。特别是在大模型的驱动下,机器学习为医疗诊断带来了革命性的变化。本文详细探讨了机器学习在医疗诊断中的应用,包括疾病预测、图像识别、基因分析等方面,并结合实际案例进行分析。同时,还展示了部分相关的代码示例,以更好地理解其工作原理。
761 3
【机器学习】大模型驱动下的医疗诊断应用
|
机器学习/深度学习 人工智能 自然语言处理
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
3246 4

热门文章

最新文章