通过机器学习让医疗数据更好用

简介: 欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!在过去 10 年间,医疗数据已经从以纸质文件为主几乎完全数字化为电子健康记录。

欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!

在过去 10 年间,医疗数据已经从以纸质文件为主几乎完全数字化为电子健康记录。但是,理解这些数据涉及一些关键挑战。

第一,供应商之间没有共同的数据表示形式;每个供应商都使用不同的方式来构建他们的数据。第二,即使使用相同供应商的网站也可能存在很大不同,例如,他们通常为同一种药物使用不同的代码。第三,数据可能分布在多个表格中,一些表格包含患者就医记录,一些包含实验室结果,其他的则包含生命体征数据。

快速医疗互操作性资源 (FHIR) 标准解决了其中的大多数挑战:它具有一个坚实并且可扩展的数据模型并基于成熟的网络标准构建,正在快速成为个体记录和批量数据访问的事实标准。但是,为了实现大规模机器学习,我们需要一些补充:各种编程语言的实现,将大量数据序列化到磁盘的有效方法,以及允许分析大型数据集的表示形式。

我们高兴地开源 FHIR 标准的一种 Protocol Buffers (简称 Protobuf) 实现,它可以解决这些问题。当前版本支持 Java,并且将很快支持 C++、Go 和 Python。对配置文件的支持也即将发布,还会推出一些工具,帮助用户将旧数据转换成 FHIR:

https://github.com/google/fhir

将 FHIR 用作核心数据模型

过去几年,我们一直与众多学术医疗中心合作,将机器学习应用于匿名病历,我们需要正面解决医疗数据的复杂性,这一点已经变得非常明显。确实,要让机器学习有效用于医疗数据,我们需要从整体上了解每名患者随着时间推移的情况。作为奖励,我们想要一种可以直接用于临床环境的数据表示形式。

尽管 FHIR 标准可以解决我们的大多数需求,但是为了使医疗数据比“旧”数据结构更加易于管理和确保大规模机器学习不依赖于供应商,我们认为引入 Protobuf 可以帮助应用开发者和(机器学习)研究人员使用 FHIR。

当前版本的 Protobuf

为了让我们的 Protobuf 表示适合编程访问和数据库查询,我们做了大量工作。提供的一个示例显示了如何将 FHIR 数据上传到 Google Cloud BigQuery 中并让它可以用于查询,我们将添加直接从批量数据导出上传的其他示例。我们的 Protobuf 符合 FHIR 标准(这些缓冲区实际上是从此标准自动生成的),但可以实现更高级的查询。

当前版本还不可以用于训练 TensorFlow 模型,不过,敬请关注未来更新。我们打算开源尽可能多的近期工作,以便提升我们的研究在现实世界情景中的重现性和适用性。此外,我们还在与 Google Cloud 团队的同事紧密合作,推出更多用于管理大规模医疗数据的工具:

https://github.com/GoogleCloudPlatform/healthcare

欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!

目录
相关文章
|
15天前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
29 1
|
1月前
|
机器学习/深度学习 分布式计算 算法
联邦学习是保障数据隐私的分布式机器学习方法
【6月更文挑战第13天】联邦学习是保障数据隐私的分布式机器学习方法,它在不暴露数据的情况下,通过在各设备上本地训练并由中心服务器协调,实现全局模型构建。联邦学习的优势在于保护隐私、提高训练效率和增强模型泛化。已应用于医疗、金融和物联网等领域。未来趋势包括更高效的数据隐私保护、提升可解释性和可靠性,以及与其他技术融合,有望在更多场景发挥潜力,推动机器学习发展。
32 4
|
11天前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
46 25
|
5天前
|
机器学习/深度学习 数据采集 算法
探索机器学习在医疗诊断中的应用
【7月更文挑战第15天】在现代医学领域,机器学习技术正逐步展现出其巨大的潜力。本文将深入探讨机器学习如何助力医疗诊断,特别是在影像学和基因组学中的应用。我们将分析机器学习模型如何通过处理大量数据来辅助医生进行更准确的诊断决策,并讨论这一过程中遇到的挑战与可能的解决方案。
|
20天前
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5天前
|
机器学习/深度学习 存储 算法
探索机器学习在医疗诊断中的应用
本文深入探讨了机器学习技术在医疗诊断领域的应用,并分析了其对提高诊断准确性和效率的潜力。通过对比传统诊断方法与机器学习辅助的诊断系统,揭示了后者在处理大数据、模式识别和预测疾病趋势方面的优势。同时,文章也讨论了实施机器学习解决方案时面临的挑战,包括数据隐私、算法透明度和跨领域合作的必要性。
16 0
|
6天前
|
机器学习/深度学习 搜索推荐 算法
探索机器学习在医疗诊断中的应用
【7月更文挑战第14天】机器学习技术正在革命性地改变医疗行业,特别是其在疾病诊断领域的应用。通过深度学习算法,医生能够更快速、准确地识别疾病模式,从而提供更有效的治疗方案。本文将探讨机器学习如何帮助改进医疗诊断过程,包括图像识别、预测分析和个性化治疗计划等方面,并讨论实施这些技术时面临的挑战和未来的发展可能。
|
7天前
|
机器学习/深度学习 XML 计算机视觉
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
|
1月前
|
机器学习/深度学习 算法 Python
机器学习算法的比较与选择是在实际应用中非常重要的一步,不同的算法适用于不同的问题和数据特征。
机器学习算法的比较与选择是在实际应用中非常重要的一步,不同的算法适用于不同的问题和数据特征。
|
1月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习赋能医疗健康:从诊断到治疗的智能化革命
【机器学习】机器学习赋能医疗健康:从诊断到治疗的智能化革命
32 1