【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

简介: 【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

【论文原文】:MEDICAL IMAGE UNDERSTANDING WITH PRETRAINED VISION LANGUAGE MODELS: A COMPREHENSIVE STUDY

作者信息】:Ziyuan Qin, Huahui Yi, Qicheng Lao, Kang Li

获取地址:https://arxiv.org/abs/2209.15517v1

博主关键词: 大模型,小样本学习,语义分割,医疗图像

推荐相关论文:

- 无

摘要:

大规模预训练视觉语言模型(VLM)在自然图像上表现出了显著的领域迁移能力。然而,这种能力是否也能应用于医学图像领域仍然是未知的。本文深入研究了预训练的VLM在医学领域的知识可转移性,表明设计良好的医学提示是从预训练的VLM中获取知识的关键。研究表明,通过使用域间共享的表达性属性提示,VLM可以跨域传递知识,提高其泛化能力。这种机制使VLM能够在较少或没有图像样本的情况下识别新对象。此外,为了避免手工设计的繁琐过程,我们开发了三种自动生成医学提示的方法,这些方法可以将专家级别的医学知识和图像特定信息注入提示中进行细粒度接地。我们在13个不同模式的医疗数据集上进行了广泛的实验,结果表明,与默认提示相比,我们精心设计的提示大大提高了零样本性能,并且我们的微调模型大大超过了监督模型。

简介:

可能不存在像医学图像这样需要高水平专家知识的领域,而获取专家标记数据也相当昂贵。事实上,标记良好的数据数量有限是阻碍医学图像领域走向大规模预训练模型时代的因素之一,迁移学习成为一种自然的选择。然而,正如(Niu et al., 2021)所述,域之间的不匹配可能会影响预训练模型从一个转移到另一个的能力(Raghu et al., 2019)。不幸的是,这种不匹配也存在于医学和自然图像域之间。因此,寻找一种具有优异域转移性能的数据高效方法对于推进医学图像理解至关重要。虽然预训练的视觉语言模型(VLMs)在域迁移任务中取得了很大的成功,但通过大型预训练的视觉语言模型从自然图像和文本对中学习到的知识是否有利于医学图像的理解还不清楚。正如(Shen et al., 2022)所指出的那样,大规模VLM在识别常见物体方面表现良好,但在遇到预训练数据中很少出现的视觉概念时可能表现不佳。这一观察结果促使我们发现一种更强大的方法来弥合领域差距。在GLIP (Li et al., 2022)、X-VLM (Zeng et al., 2021)和VinVL (Zhang et al., 2021)等VL模型中,提示学习对于增强模型的泛化也起着至关重要的作用。GLIP的目标不是简单地对齐文本和图像对,而是借助文本提示来定位图像区域,并表明具有表达属性的提示可以进一步提高模型在域迁移中的性能。我们认为,结合专家级知识和图像特定信息的提示可以极大地帮助域迁移过程,因为医学图像理解的一个关键挑战是定位仅出现在自然图像域中的物体。在设计良好的文本提示的帮助下,模型可以配备描述目标对象特征的高级语义,而不仅仅是提供对象名称。

在本文中,我们的目标是利用强大的预训练视觉语言模型,如带有表达性医学提示的GLIP,从自然图像到医学图像进行有效的域转移,以进行目标检测。 为此,我们首先探索了如何使用属性注入来手动设计有效的医疗提示,并表明与默认类别名称相比,这种设计良好的提示可以显着提高域传输能力。直观地说,文本提示中的一些常见图形属性(如颜色、纹理和形状)是跨域共享的,因此,通过在提示中包含这些表达性属性,VLM可以通过提示设置的锚点有选择地学习对齐视觉特征,而不是漫无目的地学习。

此外,为了提高效率并避免手工设计的繁琐,我们提出了几种方法,即掩码语言模型(MLM)驱动的自动提示生成,特定于图像的自动提示生成或两者的混合,以自动生成医学提示,使VLM的性能与手动编写提示的模型相当。MLM驱动的方法主要侧重于从医学领域专门的预训练语言模型中提取专家级知识,而基于视觉问答(VQA)系统的图像特定提示生成允许在设计提示时灵活地包含图像特定属性信息,而不是在推理过程中对所有图像使用单个固定提示。

我们在广泛的现有医学数据集上评估我们的方法,这些数据集跨越不同的模式,包括摄影,内窥镜检查,细胞学,组织病理学和放射学(x射线,CT, MRI和超声)图像数据集。与默认提示相比,我们精心设计的医疗提示模型在零射击和少射击方面表现出明显的优势,有些甚至超过了使用完整数据训练的监督模型。此外,我们的微调模型在几乎所有数据集上的表现都明显优于传统的监督基线。

目录
打赏
0
0
0
0
4
分享
相关文章
LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划
纽约大学Gaoyue Zhou等人提出DINO World Model(DINO-WM),利用预训练视觉特征构建世界模型,实现零样本规划。该方法具备离线训练、测试时行为优化和任务无关性三大特性,通过预测未来补丁特征学习离线行为轨迹。实验表明,DINO-WM在迷宫导航、桌面推动等任务中表现出强大的泛化能力,无需依赖专家演示或奖励建模。论文地址:https://arxiv.org/pdf/2411.04983v1。
130 21
【科普向】模型蒸馏和模型量化到底是什么???
在数字化快速发展的时代,人工智能(AI)技术已广泛应用,但大型深度学习模型对计算资源的需求日益增长,增加了部署成本并限制了其在资源有限环境下的应用。为此,研究人员提出了模型蒸馏和模型量化两种关键技术。 模型蒸馏通过将大型教师模型的知识传递给小型学生模型,利用软标签指导训练,使学生模型在保持较高准确性的同时显著减少计算需求,特别适用于移动设备和嵌入式系统。 模型量化则是通过降低模型权重的精度(如从32位浮点数到8位整数),大幅减少模型大小和计算量,提高运行速度,并能更好地适应低配置设备。量化分为后训练量化和量化感知训练等多种方法,各有优劣。
《基于 C++的神经机器翻译模型:训练与优化之道》
在全球化背景下,语言障碍的突破至关重要。本文探讨了基于C++的神经机器翻译(NMT)模型的构建与优化。NMT采用编码器-解码器结构,C++以其高效性在模型构建中独具优势。文章详细介绍了数据预处理、模型训练方法(包括优化算法和训练策略)、模型优化(如结构调整和正则化)以及模型评估与部署。通过这些方法,可以构建高效、准确的NMT模型,促进国际交流与合作。
88 12
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
238 7
[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择
[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择
168 0
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
250 0
NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链(2)
NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链
435 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等