LLaVA-Med:微软推出专为临床放射学优化和报告生成的多模态模型

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: LLaVA-Med是微软推出的小型多模态模型,专注于高效生成高质量的胸部X光放射学报告,支持快速临床部署。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 LLaVA-Med 这个由微软研究院推出的专注于临床放射学报告生成的小型多模态模型。

🚀 快速阅读

LLaVA-Med 是微软推出的小型多模态模型,专为临床放射学报告生成而设计。

  1. 核心功能:自动生成高质量的放射学报告,特别是针对胸部X光成像。
  2. 技术原理:通过模块化训练方法,结合单模态预训练、对齐和微调三个阶段,实现图像与文本的有效融合。

LLaVA-Med 是什么

LLaVA-Med

LLaVA-Med 是微软研究院推出的小型多模态模型,专注于临床放射学报告生成,特别是胸部X光(CXR)成像。它是 LLaVA-Med 项目的分支,基于 LLaVA-Med 的基础架构和训练方法,针对放射学领域的特定需求进行了优化。通过模块化训练,结合单模态预训练、对齐和微调三个阶段,LLaVA-Med 能够高效地将图像等非文本模态嵌入到文本空间中,生成准确的放射学报告。

该模型基于697,435对放射学图像与报告数据进行训练,性能卓越,关键指标如 ROUGE-L 和 F1-RadGraph 分别提升了12.1%和10.1%。LLaVA-Med 设计轻量化,仅需单个 V100 GPU 即可运行,训练可在一天内完成,适合临床快速部署。

LLaVA-Med 的主要功能

  • 放射学报告生成:根据输入的医学影像生成详细的诊断报告,帮助医生快速准确地记录和传达检查结果。
  • 多模态融合:通过适配器机制,将图像等非文本模态嵌入到文本嵌入空间中,生成更准确的报告。
  • 高效训练与推理:设计轻量化,仅需单个 V100 GPU 即可完成推理,训练可在一天内完成。
  • 自动评估与质量控制:配套推出了 CheXprompt 自动评分指标,确保生成的报告符合医学标准。

LLaVA-Med 的技术原理

LLaVA-Med-pipeline

  • 模块化训练方法:训练过程分为三个阶段——单模态预训练、对齐和微调。
    • 单模态预训练:首先对文本和图像分别进行预训练,学习各自的特征表示。
    • 对齐:通过适配器机制,将图像特征嵌入到文本嵌入空间中,实现图像和文本的对齐。
    • 微调:在对齐后的多模态数据上进行微调,进一步优化模型性能。
  • 轻量化设计:LLaVA-Med 是小型多模态模型,仅需一个 V100 GPU 即可完成推理,训练可在一天内完成。
  • 数据集多样化:模型在包含697,435对放射学图像与报告的数据集上进行训练,数据来自七个不同的来源,确保了模型的泛化能力。
  • 性能提升:在关键指标(如 ROUGE-L 和 F1-RadGraph)上,LLaVA-Med 相较于其他同类模型分别提升了12.1%和10.1%。

如何运行 LLaVA-Med

1. 克隆仓库并进入 LLaVA-Med 文件夹

git clone https://github.com/microsoft/LLaVA-Med.git
cd LLaVA-Med

2. 安装依赖

conda create -n llava-med python=3.10 -y
conda activate llava-med
pip install --upgrade pip
pip install -e .

3. 启动控制器

python -m llava.serve.controller --host 0.0.0.0 --port 10000

4. 启动模型工作进程

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path microsoft/llava-med-v1.5-mistral-7b --multi-modal

5. 发送测试消息

python -m llava.serve.test_message --model-name llava-med-v1.5-mistral-7b --controller http://localhost:10000

6. 启动 Gradio Web 服务器

python -m llava.serve.gradio_web_server --controller http://localhost:10000

现在你可以打开浏览器并与模型进行交互了。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 监控 安全
面向代码语言模型的安全性研究全新进展,南大&NTU联合发布全面综述
南京大学与新加坡管理大学联合发布论文《代码语言模型的安全性:系统文献综述》,系统分析了67篇相关论文,探讨了CodeLMs面临的数据泄露、模型篡改等安全威胁,并介绍了数据加密、模型加固等防御策略。论文不仅总结了现有研究成果,还指出了未来研究方向,强调了在提升模型性能的同时确保其安全性的重要性。该研究对推动代码语言模型的安全性发展具有重要意义。
68 27
|
3月前
|
机器学习/深度学习 编解码 人工智能
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
一支由麻省理工学院、香港科技大学(广州)、浙江大学和格里菲斯大学的华人研究团队,开发了名为TimeMixer++的时间序列分析模型。该模型在8项任务中超越现有技术,通过多尺度时间图像转换、双轴注意力机制和多尺度多分辨率混合等技术,实现了性能的显著提升。论文已发布于arXiv。
282 84
|
1月前
|
人工智能 编解码 自然语言处理
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
Pixtral-12B是由Pravesh Agrawal等人开发的多模态语言模型,拥有120亿参数,能处理自然图像和文档,在多模态基准测试中表现卓越。它不仅在多模态任务上表现出色,且未牺牲自然语言处理性能,采用全新视觉编码器,支持灵活图像处理。相比其他开源模型,Pixtral-12B性能优异,甚至超越更大规模模型。研究团队还发布了MM-MT-Bench基准测试,推动多模态模型评估标准化。尽管面临一些挑战,Pixtral-12B为多模态语言模型的发展提供了新动力。
51 18
|
1月前
|
机器学习/深度学习 存储 人工智能
Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
47 5
|
2月前
|
人工智能 自然语言处理 测试技术
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具,支持多智能体框架和垂直探索策略,提供WebWalkerQA数据集进行性能测试。
100 1
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
|
3月前
|
机器学习/深度学习 人工智能 算法
VE-Bench:北京大学开源首个针对视频编辑质量的评估指标,从多角度考虑审美并准确地评估视频编辑效果
北京大学开源了首个针对视频编辑质量评估的新指标 VE-Bench,旨在通过人类感知一致的度量标准,更准确地评估视频编辑效果。
125 14
VE-Bench:北京大学开源首个针对视频编辑质量的评估指标,从多角度考虑审美并准确地评估视频编辑效果
|
2月前
|
人工智能 测试技术
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
78 9
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
|
2月前
|
人工智能
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
TITAN 是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示,生成病理报告。
113 8
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
|
3月前
|
数据采集 人工智能 自动驾驶
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。
114 16
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
|
3月前
|
人工智能 测试技术 API
哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一
《Hammer: Robust Function-Calling for On-Device Language Models via Function Masking》提出了一种新型基础模型Hammer,通过函数掩码技术显著提升了大型语言模型在工具调用方面的性能,减少了对特定命名约定的依赖,展现了强大的泛化能力和超越现有模型的表现。该研究已开源,旨在促进智能设备的本地AI功能发展。
132 6

热门文章

最新文章