【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

简介: 【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

【论文原文】:MEDICAL IMAGE UNDERSTANDING WITH PRETRAINED VISION LANGUAGE MODELS: A COMPREHENSIVE STUDY

作者信息】:Ziyuan Qin, Huahui Yi, Qicheng Lao, Kang Li

获取地址:https://arxiv.org/abs/2209.15517v1

博主关键词: 大模型,小样本学习,语义分割,医疗图像

推荐相关论文:

- 无

摘要:

大规模预训练视觉语言模型(VLM)在自然图像上表现出了显著的领域迁移能力。然而,这种能力是否也能应用于医学图像领域仍然是未知的。本文深入研究了预训练的VLM在医学领域的知识可转移性,表明设计良好的医学提示是从预训练的VLM中获取知识的关键。研究表明,通过使用域间共享的表达性属性提示,VLM可以跨域传递知识,提高其泛化能力。这种机制使VLM能够在较少或没有图像样本的情况下识别新对象。此外,为了避免手工设计的繁琐过程,我们开发了三种自动生成医学提示的方法,这些方法可以将专家级别的医学知识和图像特定信息注入提示中进行细粒度接地。我们在13个不同模式的医疗数据集上进行了广泛的实验,结果表明,与默认提示相比,我们精心设计的提示大大提高了零样本性能,并且我们的微调模型大大超过了监督模型。

简介:

可能不存在像医学图像这样需要高水平专家知识的领域,而获取专家标记数据也相当昂贵。事实上,标记良好的数据数量有限是阻碍医学图像领域走向大规模预训练模型时代的因素之一,迁移学习成为一种自然的选择。然而,正如(Niu et al., 2021)所述,域之间的不匹配可能会影响预训练模型从一个转移到另一个的能力(Raghu et al., 2019)。不幸的是,这种不匹配也存在于医学和自然图像域之间。因此,寻找一种具有优异域转移性能的数据高效方法对于推进医学图像理解至关重要。虽然预训练的视觉语言模型(VLMs)在域迁移任务中取得了很大的成功,但通过大型预训练的视觉语言模型从自然图像和文本对中学习到的知识是否有利于医学图像的理解还不清楚。正如(Shen et al., 2022)所指出的那样,大规模VLM在识别常见物体方面表现良好,但在遇到预训练数据中很少出现的视觉概念时可能表现不佳。这一观察结果促使我们发现一种更强大的方法来弥合领域差距。在GLIP (Li et al., 2022)、X-VLM (Zeng et al., 2021)和VinVL (Zhang et al., 2021)等VL模型中,提示学习对于增强模型的泛化也起着至关重要的作用。GLIP的目标不是简单地对齐文本和图像对,而是借助文本提示来定位图像区域,并表明具有表达属性的提示可以进一步提高模型在域迁移中的性能。我们认为,结合专家级知识和图像特定信息的提示可以极大地帮助域迁移过程,因为医学图像理解的一个关键挑战是定位仅出现在自然图像域中的物体。在设计良好的文本提示的帮助下,模型可以配备描述目标对象特征的高级语义,而不仅仅是提供对象名称。

在本文中,我们的目标是利用强大的预训练视觉语言模型,如带有表达性医学提示的GLIP,从自然图像到医学图像进行有效的域转移,以进行目标检测。 为此,我们首先探索了如何使用属性注入来手动设计有效的医疗提示,并表明与默认类别名称相比,这种设计良好的提示可以显着提高域传输能力。直观地说,文本提示中的一些常见图形属性(如颜色、纹理和形状)是跨域共享的,因此,通过在提示中包含这些表达性属性,VLM可以通过提示设置的锚点有选择地学习对齐视觉特征,而不是漫无目的地学习。

此外,为了提高效率并避免手工设计的繁琐,我们提出了几种方法,即掩码语言模型(MLM)驱动的自动提示生成,特定于图像的自动提示生成或两者的混合,以自动生成医学提示,使VLM的性能与手动编写提示的模型相当。MLM驱动的方法主要侧重于从医学领域专门的预训练语言模型中提取专家级知识,而基于视觉问答(VQA)系统的图像特定提示生成允许在设计提示时灵活地包含图像特定属性信息,而不是在推理过程中对所有图像使用单个固定提示。

我们在广泛的现有医学数据集上评估我们的方法,这些数据集跨越不同的模式,包括摄影,内窥镜检查,细胞学,组织病理学和放射学(x射线,CT, MRI和超声)图像数据集。与默认提示相比,我们精心设计的医疗提示模型在零射击和少射击方面表现出明显的优势,有些甚至超过了使用完整数据训练的监督模型。此外,我们的微调模型在几乎所有数据集上的表现都明显优于传统的监督基线。

目录
相关文章
|
机器学习/深度学习 数据挖掘
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
497 0
|
10月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
1028 146
|
机器学习/深度学习 存储 人工智能
白话文讲解大模型| Attention is all you need
本文档旨在详细阐述当前主流的大模型技术架构如Transformer架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。通过本文档,我们期望为读者提供一个全面的理解,帮助大家掌握大模型的工作原理,增强与客户沟通的技术基础。本文档适合对大模型感兴趣的人员阅读。
1713 121
白话文讲解大模型| Attention is all you need
|
10月前
|
人工智能 机器人
LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划
纽约大学Gaoyue Zhou等人提出DINO World Model(DINO-WM),利用预训练视觉特征构建世界模型,实现零样本规划。该方法具备离线训练、测试时行为优化和任务无关性三大特性,通过预测未来补丁特征学习离线行为轨迹。实验表明,DINO-WM在迷宫导航、桌面推动等任务中表现出强大的泛化能力,无需依赖专家演示或奖励建模。论文地址:https://arxiv.org/pdf/2411.04983v1。
293 21
|
机器学习/深度学习 安全 数据挖掘
Swift语言的应用场景非常广泛
Swift语言的应用场景非常广泛
505 4
|
SQL 存储 API
SqlAlchemy 2.0 中文文档(四)(3)
SqlAlchemy 2.0 中文文档(四)
268 3
|
前端开发
阿萨学工具:Apifox的高级Mock 功能
阿萨学工具:Apifox的高级Mock 功能
544 0
|
机器学习/深度学习 编解码 人工智能
什么样才算好图——从生图模型质量度量方法看模型能力的发展(下)
什么样才算好图——从生图模型质量度量方法看模型能力的发展(下)
869 1
|
存储 安全 开发工具
【ZYNQ】基于 BRAM 的 PS 与 PL 数据交互
【ZYNQ】基于 BRAM 的 PS 与 PL 数据交互
1407 0
|
机器学习/深度学习 自然语言处理 算法
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
483 1