LLaVA-Med:微软推出专为临床放射学优化和报告生成的多模态模型

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: LLaVA-Med是微软推出的小型多模态模型,专注于高效生成高质量的胸部X光放射学报告,支持快速临床部署。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 LLaVA-Med 这个由微软研究院推出的专注于临床放射学报告生成的小型多模态模型。

🚀 快速阅读

LLaVA-Med 是微软推出的小型多模态模型,专为临床放射学报告生成而设计。

  1. 核心功能:自动生成高质量的放射学报告,特别是针对胸部X光成像。
  2. 技术原理:通过模块化训练方法,结合单模态预训练、对齐和微调三个阶段,实现图像与文本的有效融合。

LLaVA-Med 是什么

LLaVA-Med

LLaVA-Med 是微软研究院推出的小型多模态模型,专注于临床放射学报告生成,特别是胸部X光(CXR)成像。它是 LLaVA-Med 项目的分支,基于 LLaVA-Med 的基础架构和训练方法,针对放射学领域的特定需求进行了优化。通过模块化训练,结合单模态预训练、对齐和微调三个阶段,LLaVA-Med 能够高效地将图像等非文本模态嵌入到文本空间中,生成准确的放射学报告。

该模型基于697,435对放射学图像与报告数据进行训练,性能卓越,关键指标如 ROUGE-L 和 F1-RadGraph 分别提升了12.1%和10.1%。LLaVA-Med 设计轻量化,仅需单个 V100 GPU 即可运行,训练可在一天内完成,适合临床快速部署。

LLaVA-Med 的主要功能

  • 放射学报告生成:根据输入的医学影像生成详细的诊断报告,帮助医生快速准确地记录和传达检查结果。
  • 多模态融合:通过适配器机制,将图像等非文本模态嵌入到文本嵌入空间中,生成更准确的报告。
  • 高效训练与推理:设计轻量化,仅需单个 V100 GPU 即可完成推理,训练可在一天内完成。
  • 自动评估与质量控制:配套推出了 CheXprompt 自动评分指标,确保生成的报告符合医学标准。

LLaVA-Med 的技术原理

LLaVA-Med-pipeline

  • 模块化训练方法:训练过程分为三个阶段——单模态预训练、对齐和微调。
    • 单模态预训练:首先对文本和图像分别进行预训练,学习各自的特征表示。
    • 对齐:通过适配器机制,将图像特征嵌入到文本嵌入空间中,实现图像和文本的对齐。
    • 微调:在对齐后的多模态数据上进行微调,进一步优化模型性能。
  • 轻量化设计:LLaVA-Med 是小型多模态模型,仅需一个 V100 GPU 即可完成推理,训练可在一天内完成。
  • 数据集多样化:模型在包含697,435对放射学图像与报告的数据集上进行训练,数据来自七个不同的来源,确保了模型的泛化能力。
  • 性能提升:在关键指标(如 ROUGE-L 和 F1-RadGraph)上,LLaVA-Med 相较于其他同类模型分别提升了12.1%和10.1%。

如何运行 LLaVA-Med

1. 克隆仓库并进入 LLaVA-Med 文件夹

git clone https://github.com/microsoft/LLaVA-Med.git
cd LLaVA-Med

2. 安装依赖

conda create -n llava-med python=3.10 -y
conda activate llava-med
pip install --upgrade pip
pip install -e .

3. 启动控制器

python -m llava.serve.controller --host 0.0.0.0 --port 10000

4. 启动模型工作进程

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path microsoft/llava-med-v1.5-mistral-7b --multi-modal

5. 发送测试消息

python -m llava.serve.test_message --model-name llava-med-v1.5-mistral-7b --controller http://localhost:10000

6. 启动 Gradio Web 服务器

python -m llava.serve.gradio_web_server --controller http://localhost:10000

现在你可以打开浏览器并与模型进行交互了。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
25天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
315 109
|
1月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
358 2
|
1月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
354 23
|
1月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
189 6
|
2月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
2月前
|
人工智能 弹性计算 JSON
再不玩通义VACE模型你就过时了!一个模型搞定所有视频任务
阿里巴巴开源通义万相Wan2.1-VACE,业界功能最全的视频生成与编辑模型,支持文生视频、图像参考生成、视频重绘、局部编辑、背景延展等,统一模型实现多任务自由组合,轻量版本消费级显卡即可运行。
|
8天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
115 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
26天前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
104 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型

热门文章

最新文章