【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文原文】:MEDICAL IMAGE UNDERSTANDING WITH PRETRAINED VISION LANGUAGE MODELS: A COMPREHENSIVE STUDY
【作者信息】:Ziyuan Qin, Huahui Yi, Qicheng Lao, Kang Li
获取地址:https://arxiv.org/abs/2209.15517v1
博主关键词: 大模型,小样本学习,语义分割,医疗图像
推荐相关论文:
- 无
摘要:
大规模预训练视觉语言模型(VLM)在自然图像上表现出了显著的领域迁移能力。然而,这种能力是否也能应用于医学图像领域仍然是未知的。本文深入研究了预训练的VLM在医学领域的知识可转移性,表明设计良好的医学提示是从预训练的VLM中获取知识的关键。研究表明,通过使用域间共享的表达性属性提示,VLM可以跨域传递知识,提高其泛化能力。这种机制使VLM能够在较少或没有图像样本的情况下识别新对象。此外,为了避免手工设计的繁琐过程,我们开发了三种自动生成医学提示的方法,这些方法可以将专家级别的医学知识和图像特定信息注入提示中进行细粒度接地。我们在13个不同模式的医疗数据集上进行了广泛的实验,结果表明,与默认提示相比,我们精心设计的提示大大提高了零样本性能,并且我们的微调模型大大超过了监督模型。
简介:
可能不存在像医学图像这样需要高水平专家知识的领域,而获取专家标记数据也相当昂贵。事实上,标记良好的数据数量有限是阻碍医学图像领域走向大规模预训练模型时代的因素之一,迁移学习成为一种自然的选择。然而,正如(Niu et al., 2021)所述,域之间的不匹配可能会影响预训练模型从一个转移到另一个的能力(Raghu et al., 2019)。不幸的是,这种不匹配也存在于医学和自然图像域之间。因此,寻找一种具有优异域转移性能的数据高效方法对于推进医学图像理解至关重要。虽然预训练的视觉语言模型(VLMs)在域迁移任务中取得了很大的成功,但通过大型预训练的视觉语言模型从自然图像和文本对中学习到的知识是否有利于医学图像的理解还不清楚。正如(Shen et al., 2022)所指出的那样,大规模VLM在识别常见物体方面表现良好,但在遇到预训练数据中很少出现的视觉概念时可能表现不佳。这一观察结果促使我们发现一种更强大的方法来弥合领域差距。在GLIP (Li et al., 2022)、X-VLM (Zeng et al., 2021)和VinVL (Zhang et al., 2021)等VL模型中,提示学习对于增强模型的泛化也起着至关重要的作用。GLIP的目标不是简单地对齐文本和图像对,而是借助文本提示来定位图像区域,并表明具有表达属性的提示可以进一步提高模型在域迁移中的性能。我们认为,结合专家级知识和图像特定信息的提示可以极大地帮助域迁移过程,因为医学图像理解的一个关键挑战是定位仅出现在自然图像域中的物体。在设计良好的文本提示的帮助下,模型可以配备描述目标对象特征的高级语义,而不仅仅是提供对象名称。
在本文中,我们的目标是利用强大的预训练视觉语言模型,如带有表达性医学提示的GLIP,从自然图像到医学图像进行有效的域转移,以进行目标检测。 为此,我们首先探索了如何使用属性注入来手动设计有效的医疗提示,并表明与默认类别名称相比,这种设计良好的提示可以显着提高域传输能力。直观地说,文本提示中的一些常见图形属性(如颜色、纹理和形状)是跨域共享的,因此,通过在提示中包含这些表达性属性,VLM可以通过提示设置的锚点有选择地学习对齐视觉特征,而不是漫无目的地学习。
此外,为了提高效率并避免手工设计的繁琐,我们提出了几种方法,即掩码语言模型(MLM)驱动的自动提示生成,特定于图像的自动提示生成或两者的混合,以自动生成医学提示,使VLM的性能与手动编写提示的模型相当。MLM驱动的方法主要侧重于从医学领域专门的预训练语言模型中提取专家级知识,而基于视觉问答(VQA)系统的图像特定提示生成允许在设计提示时灵活地包含图像特定属性信息,而不是在推理过程中对所有图像使用单个固定提示。
我们在广泛的现有医学数据集上评估我们的方法,这些数据集跨越不同的模式,包括摄影,内窥镜检查,细胞学,组织病理学和放射学(x射线,CT, MRI和超声)图像数据集。与默认提示相比,我们精心设计的医疗提示模型在零射击和少射击方面表现出明显的优势,有些甚至超过了使用完整数据训练的监督模型。此外,我们的微调模型在几乎所有数据集上的表现都明显优于传统的监督基线。