Is attention all you need? 注意力可能并不是完美的！-阿里云开发者社区

医学影像是临床诊断、治疗规划和临床试验设计的关键组成部分，占据了近90%的医疗保健数据。

在过去几年中，卷积神经网络（CNNs）在医学图像分析（MIA）方面取得了性能提升。CNN可以高效地建模局部像素之间的相互作用，并且可以在小规模的医学图像数据上进行训练。然而，传统CNN模型的主要缺点是它们忽略了图像内的全局像素关系，这限制了它们对于理解具有不同“全局”信息的超出分布数据的泛化能力。

人工智能的最新进展催生了Transformer模型，它可以从数据中学习全局关系。然而，完整的Transformer模型需要在大规模数据上进行训练，并涉及巨大的计算复杂性。注意力和Transformer组件（“Transf/Attention”）作为完整Transformer的轻量级替代方案，可以很好地保持模拟全局关系的特性。

最近，有一个越来越多的趋势，将CNN和Transf/Attention架构的互补局部-全局特性进行协同融合，从而引发了混合模型的新时代。

过去几年，跨多种MIA问题出现了大量混合CNN-Transf/Attention模型的发展。在这个系统性综述中，作者调查现有的混合CNN-Transf/Attention模型，审查和揭示关键的架构设计，分析突破性进展，并评估当前和未来的机会和挑战。作者还介绍了一个基于这个综述的科学和临床影响的泛化机会的全面分析框架，通过这个框架可以激发新的数据驱动领域泛化和适应方法。

1、简介

1.1、医学图像分析和卷积

医学影像（MI）是临床诊断、治疗规划和临床试验设计的关键组成部分，占据了近90％的所有医疗保健数据。通过医学图像分析（MIA）获得的成像生物标志物可以改善早期疾病诊断、治疗设计和治疗反应监测，超越了视觉放射学评估。MIA是临床研究、创新和应用的重要组成部分。

欧洲放射学会与北美放射学会最近提供了对临床验证MIA技术的建议。在快速人工智能（AI）发展的时代，为了确立AI的临床应用，有必要审查并制定创新AI模型的指南。自从2012年Krizhevsky等人开发了第一个“深度”卷积神经网络（CNN），在ImageNet数据集上胜过了先前的最先进（非深度学习）算法，CNN在所有MIA任务上都表现出了众多的性能提升：分割、重建、合成、去噪、配准、分类和病理检测。

然而，典型的CNN侧重于通过小型卷积和共享权重对信息进行建模，这付出了引入局部感受野的代价，从而限制了它们直接对图像内的长程（全局）像素交互进行建模的能力。因此，尽管它们取得了重要的进展，基于CNN的网络仍然侧重于局部尺度建模，具有低通用的“局部-全局”建模能力。它们有限的从图像中建模局部和全局信息的能力增加了模型泛化性（例如在MIA领域或病理设置中的泛化）和纯CNN模型的迁移学习（从一个MI模态到另一个MI模态）的能力方面的障碍。

1.2、与注意力卷积的混合

2014年，Bahdanau等人首次引入了注意力机制，最初设计用于学习自然语言处理中的长距离依赖关系并改进机器翻译。注意力机制允许搜索源句子中一组位置，这些位置集中了最相关的信息，鼓励模型基于与这些源位置和所有先前生成的目标词相关联的上下文向量来预测目标词。紧随其后，于2016年开发了自注意力机制，其设计使得自注意力层中的每个位置（构建块）（称为查询、键和值）可以关注前一层输出中的所有位置，作为增强建模长程依赖关系的附加技术。

自注意力和注意力机制的引入使得Transformer模型能够增加感受野，因此成为从图像建模长程依赖关系的高效解决方案，在MIA领域取得了有希望的结果。Vision Transformer（ViT）模型在图像块中招募连续的多头自注意力和注意力机制，并已被建议完全取代纯CNN模型。

ViT的基本概念是将输入图像转换为一系列图像块，然后将其转换为向量，并可以在普通Transformer中表示为“单词”。然而，由于计算图像块与所有其他图像块之间的关系，ViT中多头自注意力模块的计算复杂性变为图像尺寸的平方，增加了在分析高空间分辨率图像时的重大挑战。Swin Transformers（ST）旨在通过在非重叠的图像块中执行自注意来克服这些挑战。尽管如此，ST仍然需要连续学习一堆两个连续的自注意力块，分别具有规则和移位的窗口配置。这增加了计算复杂性，并限制了它们在分割、病理检测、去噪、重建和配准等MIA任务中的适用性，这些任务需要在像素级上进行密集预测和从高内容图像中学习表示。这是完整的ViT和ST模型仅限于医学图像分类和目标检测任务的主要原因。

为了减少计算复杂性并解决MIA中的局部和全局学习问题，将自注意力和Transformer块纳入CNN模型架构（随后称为“混合”CNN-Transf/Attention模型），从而产生了混合模型。当前的证据表明，通过结合局部和全局建模能力，这些混合CNN-Transf/Attention模型在不同的MIA任务中持续优于以前的最先进技术。混合模型还可以用于提高模型的解释性。

然而，这些混合模型的主要缺点是它们非常复杂，因为它们被开发来解决MIA中的特定问题，这意味着它们的领域泛化能力（例如从CT到MRI，或从肺到心脏应用）和迁移学习能力可能是具有挑战性的过程。鉴于它们的大幅增长，有必要系统评估这些技术是否可以在不同的成像模式、MIA任务和临床应用之间进行泛化，或者是否被过度设计用于特定的MIA问题。

在这项工作中，作者回顾了体内医学影像（MRI，CT，PET，超声，X射线和视网膜成像）的混合模型的演进。最近有很多调查描述了CNN模型的技术细节以及如何使用它们来解决MI中的特定需求，以及一些关于MI中ViT的最近调查。

与以往的综述不同，作者根据体内MI中的“混合”CNN-Transf/Attention模型的偏好报告系统综述和Meta分析（PRISMA）指南，开发了一份综合性的系统综述。作者对MI中的混合CNN-Transf/Attention模型的已发表工作进行了分类，分析了关键的架构设计，并定量和定性地揭示了CNN-Transf/Attention模型的演进。

为了提高对这些新技术的清晰度和理解，作者对这些混合模型是否优于纯CNN模型进行了批判性评估。作者审查技术和计算复杂性，并讨论基于MI模态、下游任务和临床应用的领域泛化策略。作者着重揭示混合模型的重要性和潜在缺点。最后，作者讨论后混合模型时代的机会、挑战和未来展望。作者认为这些综述概念是将这些新技术与临床意义的MIA相协调和转化的重要途径。

2、方法

2.1、文献综述策略

作者对2019年1月1日至2022年7月1日期间在Scopus、Web of Science和Pubmed上发表的MI中的CNN-Transf/Attention模型进行了系统综述，采用了PRISMA框架。在作者的综述中，作者将涉及任何CNN和Transformer模块的所有混合模型，包括自注意力和注意力机制的改进，都称为混合CNN-Transf/Attention模型。作者只考虑涉及体内身体成像的MI模态，因此排除了显微镜和数字病理学切片成像研究。因此，作者重点关注MRI、CT、PET-CT、超声、视网膜成像和X射线。

初步筛选：为了扩大研究范围，作者首先通过在摘要、标题和论文关键词中搜索以下关键词来获取所有出版物：（transformer OR self-attention）AND（deep AND learning）OR（convolutional AND neural AND network）。这导致了5222篇论文（见图1a中的PRISMA流程）。

随后，作者通过在每篇论文的摘要、标题和关键词中考虑所有不同的关键词组合，如下所示，来缩小搜索范围：（transformer OR self-attention）AND（deep AND learning）OR（convolutional AND neural AND network）AND（medical AND imaging）OR（magnetic AND resonance AND imaging）OR（MRI）OR（computed AND tomography）OR（CT）OR（ultrasound）OR（positron AND emission AND tomography）OR TITLE-ABS-KEY（retin）OR TITLE-ABS-KEY（x-ray）OR TITLE-ABS-KEY（ray）。

通过添加这些术语，作者排除了所有与MI无关的论文，这导致了三个数字图书馆中的656篇论文。然后，通过排除会议、综述和存档（非同行评审）论文，作者删除了所有非期刊出版物，留下了352篇期刊论文用于后续分析。

标题和摘要筛选：所有作者在352篇期刊同行评审论文的标题和摘要中进行了筛选，并删除了与研究领域无关的所有论文，留下了128篇论文进行全文查阅。

全文筛选：在对全文进行了审查后，作者删除了16篇期刊论文（其中14篇与MI或混合模型研究无关，2篇论文不是用英语写的）。总共，有112篇期刊论文（随后称为“文章”）被纳入作者的综述分析。另请参阅数据提取，了解审查的论文内容。

2.2、数据析取

在评估文章的全文时，作者考虑了以下几个方面：

出版年份
MI模态
CNN Backbone
Transf/Attention，包括所有不同的注意子类型
MIA任务（分割、重建、合成、去噪、配准、分类、病理检测）
研究/成像的器官或生理系统
使用公共或私人数据
使用的数据增强技术
模型优化器
损失函数
用于评估结果的度量标准
训练和测试数据的大小
是否计算了计算开销（总参数数量）
是否性能相对于非混合 Baseline 方法有所改善

此外，作者根据两个客观标准对文章进行了泛化性的评估：混合CNN-Transf/Attention架构是否

在大规模未见过的测试数据上进行了训练和/或评估，
分析了来自异构模态的数据（例如不同的MRI或CT序列，或MRI和CT等）和/或多模态分析（图像和文本，图像和遗传学）和/或在多个器官区域中实施（例如大脑和心脏）。

3、结果

3.1、研究趋势

作者研究了发表的混合CNN-Transf/Attention模型在MI领域的工作，并观察到在作者的观察窗口的前两年，这些模型在2021年和2022年持续增加。

在图1a中，作者展示了用于搜索和审查文章的PRISMA流程。在图1b中，作者最初根据每篇文章的作者单位来衡量其国家来源（考虑了所有出版物的所有单位）。

在整个审查期间（2019-2022年），前十个国家分别是：中国（74篇论文）、美国（34篇）、英国（14篇）、印度（9篇）、德国（5篇）、香港（4篇）、加拿大（3篇）、台湾（3篇）、韩国（3篇）和意大利（3篇）。

表I展示了所有的文章根据MI模态、CNN Backbone 、Transf/Attention模型和临床应用（器官）进行分组[13-21, 35-139]。表II中展示了每个混合模型在研究中使用的数据增强技术、优化器、损失函数和评估性能的度量标准等实现细节。表III展示了是否对公共和/或私人数据进行了分析，以及有关数据规模的信息。

3.2、实验设置和关键架构设计招募的医学成像模式

作者回顾了每年使用的MI模式的出版记录（图2a）。大多数研究涉及MRI（50项研究），其次是CT（42项）、视网膜成像（14项）、x射线（12项）、超声（7项）和PET-CT（5项）。尽管在作者观察时间框架的前两年，MRI的频率低于CT，但在过去两年（2021年和2022年），它的数量超过了CT。

1、CNN model used

在图2b中，作者展示了所有研究中使用的所有CNN Backbone 模型。在大多数研究（40篇文章）中都实现了标准的CNN架构，其次是UNet（30）、GAN（14）、ResNet（14）、DenseNet (7)、None（即没有使用CNN Backbone Transformer模型）(7)、全连接网络（FCN）(6)和VGG (3)。

2、Transformer and attention mechanisms

图2c展示了每年使用的Transf/Attention模型的演变。显然，自注意力机制被广泛使用（总共112个研究中的64个研究），其次是Transformer（22个研究）、ViT（9个研究）、通道和空间注意力（6个研究）、ST（4个研究）、注意力（2个研究）和其他（11个研究）。众所周知，要充分发挥全面Transformer模型的性能优势，需要结合大规模数据和超级计算设施。

在作者的综述中，有许多研究要么分析相对较小（即<2,000张图像）的数据（约27％），要么仅使用私人数据（约29％），要么未报告数据规模（约21％）。详情请见表III。

此外，大多数研究未报告计算资源，只有83篇研究中有29篇报告了模型参数数量和/或训练时间。值得注意的是，只有112个研究中的8个（约7％）描述了使用全面的原始Transformer、ViT或ST模型，其余约93％的研究涉及自注意力、通道和空间注意力、注意力以及包括Transformer块（堆叠层）、层或编码器（表I）在内的简化和轻量级Transformer版本。

3、Medical image analysis (downstream) task

作者对所有研究中调查的器官进行了回顾（图3b）。在112个研究中，大部分研究分析了来自大脑的医学图像（53个研究），其次是肺（20个）、多个器官（20个）、视网膜（13个）、胸部（6个）、颈部（6个）、腹部（5个）、心脏（5个）、乳房（3个）、膝盖（3个）和胰腺（3个）。所有其他器官的研究次数都等于或少于2个研究（图3b）。对于前3个最常分析的器官（大脑、肺、多个器官），每年的研究数量都在不断增加（图3b）。

4、Organs analysed

作者回顾了所有研究中调查的器官（见图3b）。在112个研究中，大部分研究分析了来自大脑的医学图像（53个研究），其次是肺（20个）、多个器官（20个）、视网膜（13个）、胸部（6个）、颈部（6个）、腹部（5个）、心脏（5个）、乳房（3个）、膝盖（3个）和胰腺（3个）。其他所有器官在等于或少于2个研究中进行了检查（图3b）。对于排名前3的最常分析的器官（大脑、肺、多个器官），每年的研究数量都在不断增加（图3b）。

5、Transformers and medical imaging

作者回顾了每个MI模态中实现了哪些Transf/Attention机制（见图4a）。自注意力主要应用于CT（23个研究）和MRI成像（22个研究），其次是超声（7个研究）、视网膜成像（6个研究）、X射线（2个研究）和PET-CT（2个研究）。

Transformer在MRI中最常见（16个研究），其次是CT（4个研究）、X射线（3个研究）和视网膜成像（1个研究）。ViT主要应用于X射线和视网膜成像（各3个研究），其次是CT（2个研究）。通道注意力和空间注意力机制在MRI、CT和X射线中各有2个研究。ST仅用于MRI（4个研究）。

6、CNN 和 Transf/Attention结合

在图4b中，作者展示了自注意力机制的引入是跨所有CNN模型类型分布的主要选择。Transformer是第二常见的类型，被用于除了VGG之外的所有CNN模型类型。ST是第三常见的类型，只在标准CNN和UNet结构中使用。根据作者的研究结果，各种“轻量级”（简化）Transformer块、编码器或层在研究中被广泛使用（见表I）。

新颖的迁移学习策略、多中心数据和/或日益可用的超级计算设施可能会在未来的工作中鼓励使用全面的Transformer架构。然而，当前的混合模型在研究中显示出性能突破，将它们突出为在回顾的MIA任务中功能强大且相对简化（与大型预训练模型相比）的技术。

对于标准CNN和UNet结构，除了标准注意力机制和ViT之外，所有Transf/Attention机制都被使用（见图4b）。对于GAN模型，只实现了自注意力机制。这些结果表明，在不同的研究中，CNN-Transf/Attention组合的变化很大。此外，数据增强、损失函数和评估结果的度量标准在使用上也存在很大的变异性（见表II）。

7、下游任务和临床应用

图4c展示了在每个下游任务中使用的所有Transf/Attention组件。自注意力被应用于所有器官区域（图4d）。Transformer架构被应用于大脑、肺、多个器官、心脏、视网膜、颈部和胰腺。

ViT和ST主要应用于相对有限的临床应用领域：肺和视网膜，以及大脑和心脏。类似地，通道注意力和空间注意力已被用于多个器官、大脑、肺和胸部。

3.3、性能和泛化机会

大多数提出的混合模型在下游任务中表现优于 Baseline 和先前的SOTA比较方法。虽然在图像分析任务和研究中使用的评估指标存在较大的差异，使得直接比较变得具有挑战性（见表2），但在研究中使用Transf/Attention机制明显提高了性能。一些研究表现出相对于最佳 Baseline 模型有较大（≥5%）的差异，或者在不同的评估指标中表现出中等水平（<5%）但持续的改进和/或使用的数据。

在下文中，作者详细介绍遵循作者的2个目标泛化标准（见方法）的研究：混合模型是否

在大规模未见过的测试数据上进行了训练和/或评估（> 2,000张图像，表1），
分析了来自异构模态和/或多个模态和/或多个器官区域的数据。

1、Segmentation

图像分割是医学影像分析领域的一个重要方面，因为它是提取受调查器官内感兴趣区域所必需的中间步骤。虽然UNet模型革新了医学影像分割，但图像分割仍然是一个开放性挑战，因为它依赖于强监督，因此需要大量的标记数据。然而，由于MI数据的标签通常有限，存在相当大的“数据挑战”障碍。为了解决这个问题，已经提出了几种方法，例如用于半监督学习的解耦表示，通过只使用一小部分标记数据可以生成准确的分割结果，或者使用GAN技术来获得图像和分割掩模的准确配对合成。

Cheng等人提出了一种多任务方法，可以同时从MRI图像中进行胶质瘤分割，并对神经肿瘤学患者的基因表型进行平行分类。他们开发了一个CNN模型，其中编码器和解码器之间包含两个Transformer层。与大多数MRI和CNN研究不同，作者使用了多参数MRI数据进行图像分割（4种不同的MRI序列）。

作者将他们的方法与10个 Baseline CNN模型进行了比较，并证明了两个任务的优越性能。在小但异构数据分析的背景下，Wang等人设计了一个带有残差连接和自注意模块的CNN编码器-解码器模型，该模型与编码器中的CNN层相连接。作者展示了他们的方法在从CT图像中识别COVID-19肺部异常方面优于所有 Baseline 模型。他们还开发了一种基于相同混合模型的零样本学习策略，在未标记的CT数据集中应用UNet模型来预测伪标签，从而引导半监督学习。

除了有限的标记数据，医学影像分割中的另一个挑战是分析“较少解剖学”和更多“生物物理学”成像数据，其中成像物理学被修改，以便在像素级别牺牲解剖学信息，以“强调”灌注、功能、时间或其他生物物理学信息。大多数分割算法专注于包含足够解剖学（以有效指导语义）表示的成像序列。Shi等人开发了一种强大的方法，能够分析4种不同的参数性灌注图：

a）脑血容量
b）脑血流量
c）到达最大峰值时间
d）平均过渡时间（对比增强）

他们开发了两个并行的子网络来同时分析血流（a，b）和时间（c，d）参数。每个子网络都包含一个CNN模型，编码器和解码器之间带有跳跃连接。编码器和解码器之间还加入了交叉注意力模块进行特征融合。该模型与 Baseline 方法进行了比较（在不同的指标下获得更高和可比的性能），并在公共数据和内部数据上进行了评估。他们的方法对于其他类型的灌注成像数据（MRI，PET，超声）可能也具有潜在的应用价值，从这些数据中可以提取类似的灌注图并进行联合分析。

在一项针对CT COVID-19数据集的研究中，Cheng等人开发了一个名为“DDANet”的模型，它将两个自注意力机制嵌入到了UNet模型中。他们的模型在对肺部感染进行分割的任务中，相对于 Baseline 模型，取得了卓越的性能。

作者指出，他们的模型可以适应其他疾病领域中小型和不规则病变的检测。在一项针对视网膜图像分析的研究中，Mou等人开发了一个名为“CS2Net”的多功能曲线结构分割网络，它基于双自注意力模块，可以处理2D和3D视网膜成像数据。通过设计两个通道和空间自注意力机制来生成自注意力特征并捕获长程背景信息，他们在对9个（2D和3D）数据集进行广泛实验后，展示了在从不同成像模态中检测曲线结构方面的最先进性能。他们表明，他们的技术可以作为视网膜形态学分析的广义方法。

值得注意的是，这种混合模型可能具有重要影响，因为视网膜成像不仅用于评估眼科病变，还可以用于早期检测多种疾病中的视网膜形态学变化，如阿尔茨海默症、心脏病病理、脑小血管病等。

Xu等人将UNet模型的编码器中的2层和解码器中的1层替换为自注意力机制。他们的混合模型在与其他6个模型进行比较时，在分割多个胎儿解剖结构方面取得了最先进的性能。由于移动和模糊的解剖器官边界，从超声中分割胎儿结构尤为具有挑战性。Sinha等人开发了一个通用的混合模型，用于分割腹部、心血管和脑结构的多个MRI序列。作者使用ResNet模型进行初始特征提取，然后将其输入一系列空间和通道自注意力机制。他们在与6个先前的SOTA Baseline 进行比较时展示了卓越的性能。该模型能够感知广泛的解剖（不同器官）和语义（不同MRI序列）信息，因此可能有助于未来的单中心和多中心分析。

Xie等人开发了一个3D UNet结构，其中包含2个级联的UNet，两者都增加了自注意力机制。该模型在慢性阻塞性肺疾病（COPD）的CT数据集上进行了训练。

在训练后，混合模型在COPD数据和未见过的COVID-19数据集上进行了评估。该模型在检测COPD和COVID-19数据中的多个肺结节方面优于先前的技术。在对其他器官的CT数据进行进一步验证后，这种混合方法可能在检测不同疾病和器官区域的小型和不规则病变方面具有广泛的适用性。

2、病理学检测

病理检测最终是任何医学影像分析任务的目标，其中分割、定位和分类通常作为并行的联合任务设计。在一项值得注意的研究中，周等人提出了一种名为REFERS的交叉监督方法，通过从放射学报告中生成X射线图像标签，进行肺部病理检测的图像分类。作者采用了由多头自注意力机制组成的ViT模块，从多个X射线视图和相应的放射学报告中学习联合表示。随后，该模型进行特征融合，并使用两个附加的子网络进行双向的视觉到文本特征映射。

REFERS首先在源领域的X射线数据集上进行预训练，然后在4个成熟的数据集上进行微调（目标领域带有文本标签的数据集）。在他们的迁移学习策略中，作者使用结构化的放射学报告标签进行了全监督学习。与其他模型不同，他们的技术在预训练期间不需要标签。作者还表明，他们的模型在极其有限的监督下（在微调期间只有1%的标记图像）在所有数据集上优于强大的 Baseline 模型。他们的模型在检测多种肺部病理方面始终表现准确，因此在标记极其有限的实际应用场景中具有巨大的潜力。

为了解决来自不同领域的大规模分析问题，Wood等人开发了基于DenseNet的监督学习框架，用于从临床T2加权和弥散加权头部MRI扫描中检测临床相关的异常。DenseNet模型使用基于Transformer的神经放射学报告分类器进行训练，以生成来自2家英国医院的70206个检查的标记数据集。

Transformer模型使用了一个小型数据集（N=5,000）的神经放射学报告进行训练。作者展示了在不同医院之间准确、快速和具有泛化能力的脑部MRI异常对比正常分类。这项工作证明了在相同的MIA流程下，CNN和Transformer的结合的优势。

在视网膜图像分析方面，Wang等人提出了MsTGANet，一种增强了Transformer块的UNet模型，其中包含了一系列多头自注意力机制，用于在学习过程的早期捕获局部和全局像素交互。还在编码器和解码器的不同位置之间插入了一系列通道和空间注意模块，以在训练期间高效融合特征语义。在推理过程中，该模型在未标记的数据中预测标签，然后将其作为伪标签用于增强数据集，作为半监督学习策略的一部分（伪标签然后用于指导半监督学习）。该模型在监督和半监督分割任务中优于先前的SOTA方法。由于在半监督学习过程中性能得到改进，该模型有潜力用于进一步分析视网膜图像和眼科病理学。

Zhang等人设计了一个3D ResNet块，作为初始特征提取器，然后将特征信息传递到一个自注意力块中。作者进行了多个分类实验，用于从MRI数据中识别阿尔茨海默病和轻度认知障碍，结果显示出优于 Baseline 方法的性能。尽管他们主要专注于使用T1加权数据（主要用于解剖学成像，不包含“功能性”或“灌注”组织信息），但他们分析了来自1.5T和3T MRI扫描仪的数据，这些扫描仪在信噪比、成像内容和伪影方面有差异。由于他们的技术在公共数据（ADNI）上进行了评估，针对2种不同的脑部病理和分析来自不同磁场MR扫描仪的数据，它有潜力在进一步的MRI数据、器官区域和病理中进行评估。

Let等人进行了另一项研究，提出了一个CNN编码器-解码器网络，与一个自注意力机制相连（称为PreSANet），用于检测头颈癌患者的癌症复发、远处转移和整体患者生存。该模型在公共数据上进行了训练，并在多个未见数据集上进行了验证，显示出良好（约70%）的泛化能力。Chen等人开发了一个ResNet模型，增强了一个带有多级跳跃连接的U-Transformer，并在大规模MRI、CT和视网膜成像数据的异常检测（用于病理检测）方面优于SOTA Baseline 。Mondal等人预先训练了一个ViT编码器，与一个FCN层相连，用于区分COVID-19阳性病例与其他肺炎类型和正常对照组。该模型在ImageNet数据集上进行了训练，在大量的胸部x光片上进行了微调，并在CT和x光肺数据上进行了测试。

Zhao等人提出了一个带有自注意增强的UNet模型，用于从超声图像中对恶性和良性甲状腺结节进行分类。该模型通过广泛的实验在大规模数据集上进行了评估，实现了高性能（89%）。Wu等人开发了一个ViT编码器，并使用大型Kaggle数据集在视网膜图像中进行了精确的糖尿病视网膜病变分级。Duong等人开发了一个Efficient模型，与一个完整的ViT相连，并在异质x光公共来源的结核病检测中展示了准确且有普适性的结果。

Lin等人开发了一个带有自注意的可变形ResNet模型，用于检测由COVID-19感染引起的不规则和扩散的肺结节，并在大型多样化的公共数据集中展示了SOTA性能。Shome等人开发了一个Transformer编码器，与一个MLP块相连，用于从大规模x光片数据集中对COVID-19感染与其他肺炎类型和正常肺进行多类别分类。其他混合模型研究在病理检测方面展示了创新的架构和高诊断准确性，尽管使用了较小的数据集。

3、Reconstruction

医学图像重建的目标是从扫描仪获取的原始信号中形成图像表示。快速采集（如心脏等周期运动器官）和/或低剂量（例如CT）的重建具有重要的临床应用。Zhou等人利用相对较小但高度多样的数据，开发了一个基于CNN的方法，增强了自注意力，用于超声图像的各种器官和组织的重建。

另一项研究通过使用带有Transformer层的CNN对大型MRI数据（>30,000 MR图像）进行了准确的脑部重建。谭等人设计了一个CNN模型，其中引入了通道-空间注意力模块，用于从大规模数据集（>55,000张图像）重建肺部的x光图像。其他研究聚焦于MRI重建，并通过分析大规模且多样化的成像数据展示了准确且有普适性的混合模型。

4、Synthesis

图像合成是一个重要领域，它可以解决不同模态之间数据增强的需求。Yang等人开发了一个带有自注意力的CycleGAN，用于无监督的MR到CT的合成，优于两个普通的CycleGAN Baseline 。

在MR到CT合成领域，Dalmaz等人在CNN的编码器和解码器之间开发了一系列残差Transformer块，而Tomar等人开发了一个具有ResNet块和自注意力模块的GAN模型，用于心脏和脑部图像的合成。Wei等人开发了一个首创性的GAN模型，在生成器和判别器中加入自注意力，能够通过分析多序列MRI数据合成PET导出的髓鞘含量。

5、Denoising

降噪是在图像定量之前的一个重要步骤，它可以增强信噪比并去除伪影。Li等人将3D CNN模型与自注意力块和自编码器感知损失（用作自监督学习模块）结合在一起，与基于CNN和GAN的模型相比，他们在胸部和腹部CT图像的去噪性能上取得了改进。

Huang等人提出了一个端到端的CycleGAN模型，其中包含十字自注意力和通道注意力机制，以降低低剂量牙科和腹部CT图像中的噪声，去除伪影并保留解剖结构。在进一步验证后，这可能是未来应用于多个器官和/或模态的有价值的方法。为了去噪低计数的PET图像，Xue等人开发了一个带有自注意力的3D GAN模型，与 Baseline 方法相比，取得了改进的性能。他们的方法在大规模PET数据上进行了评估，并显示可以提高PET图像质量，减少运动伪影并提供准确的诊断信息。

6、Localisation

图像定位专注于在医学影像数据中检测感兴趣区域的位置。Tao等人提出了一个ResNet模型用于初步特征提取，然后使用一系列自注意力和交叉注意力机制来进行脊椎CT的定位和分割。他们在2个CT数据集上展示了准确且具有泛化性能的表现。

Li等人开发了一个并行化的DenseNet模型，与ViT块并行用于提取局部和全局像素依赖关系，并在输入CNN模型之前进行融合。当在一个大型x光数据集（超过112,000张图像）上进行训练和测试时，他们的技术在多种肺部异常的分类和定位上胜过 Baseline 模型。Xie等人使用经过预训练的VGG模型增强自注意力，以增强特征提取，并将这些信息馈送到2个后续的CNN模型。他们在2个不同的视网膜成像数据集上展示了准确的黄斑定位。

7、Registration

图像配准是将不同图像的空间坐标对齐到共同的几何坐标系统的过程。图像配准在多模态和纵向医学影像分析中有广泛的应用。Yang等人开发了一个简单的Transformer编码器和基于注意力的解码器模型，用于脑MRI配准，在3个不同的数据集上展示了优于 Baseline 方法的准确结果。

Song等人提出了一个CNN模型，其中包含用于脑MRI配准的Transformer块，其包括修改后的多头自注意力机制，产生了最先进的配准性能。尽管分析来自不同MRI序列的脑部图像是具有挑战性的，但脑部是一个静态器官，在跨模态之间较不容易出现配准错误。进一步的工作需要扩展到受周期性（例如，心脏）和非周期性（例如，腹部）运动影响的器官区域，并实现不同模态之间的图像配准。

4、讨论

4.1、当前的机遇和挑战

作者通过4名有丰富深度学习和医学影像分析经验的专业人士（共同作者GP、ND、CW、GY）对所有文章进行了研究。作者从开发者和最终用户的多学科角度，识别了混合模型在医学影像分析中的一般挑战和机遇。据作者所知，目前尚没有关于这些主题的先前综述，鉴于这些模型的异构性，未来需要更广泛的研究来为开发者和最终用户制定数据驱动的泛化最佳实践。

因此，以下观点可以指导未来的工作和系统性综述，以进一步巩固这些混合模型在更大规模和多中心研究中的应用。

挑战：

作者强调了一些有潜力作为泛化框架的研究。然而，由于数据内容的差异，需要额外的验证将一种方法从一个器官和/或影像模态转移到另一个器官和/或影像模态。
当比较类似的混合模型时，模型架构存在相当大的差异。例如，在开发具有自注意力的UNet的研究中，这些独立组件的组合方式存在较大的差异。
前一点表明，目前的模型开发通常遵循试错逻辑，根据给定数据集的性能选择最优架构。然而，这与开发泛化模型和最佳实践的目标相反。因此，需要对开发泛化框架进行讨论，并基于某些数据驱动的边界条件进行探讨：例如，如果满足特定数据大小、数据内容（例如T1加权MRI）和内部计算能力，则UNet-Full Transformer用于心脏分割将是一个最优设计。因此，需要系统性的领域泛化策略，以系统地解决“为什么”和“如何”为数据Y开发模型X的问题。
制定统一的实现协议尤其具有挑战性。即使在处理相同问题的研究中（例如，CT用于肺分割），数据增强、优化器、损失函数和预处理等实现方面也存在显著差异。
对于复杂的局部-全局模式识别模型，开发稳健的解释机制将是具有挑战性的，这些解释机制不仅仅依赖于可视化图。
“因果表示学习”（Causal Representation Learning, CRL）是一个日益增长的趋势。CRL的目标是解决领域中的开放性问题，如模型泛化和迁移学习。CRL的核心是从低级观察（嵌入）中发现高级因果变量（图像中的对象）。必须解决的主要挑战之一是如何从深度学习嵌入中因子化因果结构。CNN-Transf/Attention模型由于从局部和全局相互作用中学习嵌入而具有额外的复杂性。因此，必须仔细考虑如何将CNN-Transf/Attention模型与因果性相结合，并从彼此的进步中受益。

机会：

基于性能提升，混合模型研究可以强调研究泛化视角和多中心大规模分析的标准化协议。
鉴于不同研究中的诊断性能改进，有可能提高早期诊断和预防医学的水平。
截至2022年，心血管疾病、癌症、中风、COVID-19、慢性呼吸道疾病、糖尿病和神经系统疾病是美国的主要死因。作者综述中的大多数研究（>90%）关注至少涉及其中一种主要死因的器官/病理领域，显示了提高诊断和患者结果的潜力。
通过CNN-Transf/Attention在多模态分析中实现技术的多样性，可以获得有用的补充信息，例如图像、自然语言、分子特征和临床历史。
从临床角度来看，多模态数据分析可以通过结合不同模态的患者级信息来增强精准医学。
将医疗资金转向基于多模态患者特征的治疗设计和优化。
加速引入相关法规和流程，以确立医学影像分析中的人工智能在某些医学影像和临床应用中的泛化和可复制性。
专注于将CNN-Transf/Attention与CRL结合，以增强模型在临床领域的泛化性和可信度。
开发稳健的迁移学习方法，充分探索CNN-Transf/Attention模型在分布不同的数据集上的优势。

重要性和缺点

将局部和全局感受野结合起来，并且合理的计算能力要求，突显了CNN-Transf/Attention模型在医学影像分析中作为一个重要的研究方向。即使在相同的下游任务或应用中，这些方法的架构也具有大量的多样性，这意味着对于其中一些方法，有限的可扩展性可能是主要的缺点。

此外，由于一些研究中分析的数据相对较小，计算能力有限或缺乏用于像素级预测的稳健迁移学习方法，因此在作者的综述工作中完整的Transformer架构受到了限制。需要进一步开展关于迁移学习技术的研究，以实现对分布不同的数据进行模型泛化，从而利用完整的基于Transformer的混合模型的优势。

4.2、后混合模型时代的未来展望，Full transformers，ChatGPT和超越

最近ChatGPT大型语言模型（LLM）的发展在数据分析和人工智能领域引发了巨大的变革。截至目前，最新的ChatGPT版本是基于GPT-4（于2023年3月发布），据报道是经过训练的最大LLM（超过170万亿个参数）。GPT-4模型的主要优势在于它是在包含书籍、文章和网站等各种各样的互联网文本上进行训练的，使用强化学习从人类反馈中获得奖励或“惩罚”模型。

它的主要能力是通过会话任务（对用户“查询”的“回答”）执行数据预测。ChatGPT模型执行基于Transformer和自监督学习的预测。虽然已经有一些有前景的方法涉及到使用GPT模型进行MIA，但主要限于图像到文本的映射。Wang等人使用预训练的CNN模型从肺部的X光图像中提取输出，并应用报告生成器GPT模型将结果进行总结，并得出文本诊断。

Chen等人使用预训练的GPT-2模型与涉及注意力的视觉编码部分，对自然图像和X光数据进行准确的图像标题生成。Jeblick等人开发了一种基于GPT的技术，专注于简化放射学报告，但没有使用图像数据作为输入。

虽然可以预期GPT模型可能向MIA扩展，但需要考虑几个限制因素。首先，据作者所知，尚无基于GPT的MIA模型用于密集图像级预测，用于作者所呈现的MIA任务。基于CNN特征提取器的局部感受野可能是执行详细图像分析所必需的，这将指向未来更加“重型”的“混合模型”（CNN-GPT）的方向。在这一点上，尚不清楚现有的GPT模型内部的自我监督模块是否足以预测来自“高内容”数据的复杂器官和组织病理，是否需要融入“计算机视觉”CNN组件。

此外，GPT模型的一个重要限制是所谓的“幻觉效应”，即GPT模型倾向于“创造”一个最终会导致“错误”回答的术语。对于GPT模型尚未专门化的领域，这可能是一个问题。由于来自临床和私人MI数据所有者的监管、伦理和组织考虑，作者对于作为这种开放代码或多中心微调策略的数据源可用的多中心大规模数据分析仍处于初级阶段。此外，可用的MI和文本数据的共存通常较低。到目前为止，考虑到作者综述中当前混合模型的表现，卷积Transf/Attention可能是医学影像中“你所需要的一切”。

迁移学习来自于未来

在医学影像分析中，一个重要但尚未解决的方面是模型技术和数据的民主化。以增加性能和泛化能力，同时降低计算能力为重点的迁移学习策略，可以作为民主化工具。然而，已知在MIA中，针对图像级预测的迁移学习相对有限，与从头开始训练的“较小新”模型相比。在大量展示新模型的研究中，作者强调了一些展示了在大领域数据集上进行稳健预训练并进行广泛微调，并在测试数据上显示了SOTA性能的文章。在他们有影响力的研究中，刘等人最近提出了“ConvNext”作为一种新的纯CNN技术，其中涉及了模型设计和迁移学习方法的一些ST（smaller new）启发式改进。

其中一些ST启发式改进包括：相同的数据增强协议、网络宽度增加、瓶颈模型反转、卷积核大小增大、使用较少的激活函数和归一化层。使用ConvNext，他们在ImageNet分类任务中的性能超越了ST，并使用了可比较的计算资源。Radford等人对Transformer和ResNet/ViT模型进行了适应，分别对成对的文本和图像进行了预训练。通过在4亿个图像-文本对的网络数据上进行训练，他们证明可以从文本中学习图像标题，并将其用作图像分类的标签，展示了一种可扩展和高效的过程来学习图像表示。在预训练后，文本模型可以描述新的视觉概念，实现对新任务和数据的零样本转移。

进一步在这些方向上的工作将特别重要，以改进模型设计、预训练（在域外数据上）和微调（在域内数据上）技术，以有效地实现大型混合模型和数据访问的民主化。

5、总结

总结而言，混合模型在提高性能的同时，展示了广泛的泛化机会，可以基于其大规模、多模态、异构和广泛的临床应用范围。这些技术的主要挑战是将它们的大型架构多样性与当前的技术和临床需求相一致，以用于精准医学和预防医学。基于作者强调的机会，作者旨在鼓励进一步的数据驱动的泛化框架研究，为未来这些强大的混合技术的设计制定标准。作者还希望在迁移学习领域进行更多工作，以实现对分布外数据的泛化，以便进一步实现模型和数据的民主化。

作者的回顾展示了CNN和Transformer启发式模型的共同交叉受粉对于进一步开发CNN、全Transformer和大型语言模型的新视野是有益的。除了这些机会，作者的回顾证明了CNN-Transf/Attention的优势超过了挑战，因此在临床影像的未来验证和标准化过程中可能“all you need”。

6、参考

[1].Is attention all you need in medical image analysis? A review.

Is attention all you need? 注意力可能并不是完美的！

1、简介

1.1、医学图像分析和卷积

1.2、与注意力卷积的混合

2、方法

2.1、文献综述策略

2.2、数据析取

3、结果

3.1、研究趋势

3.2、实验设置和关键架构设计招募的医学成像模式

1、CNN model used

2、Transformer and attention mechanisms

3、Medical image analysis (downstream) task

4、Organs analysed

5、Transformers and medical imaging

6、CNN 和 Transf/Attention结合

7、下游任务和临床应用

3.3、性能和泛化机会

1、Segmentation

2、病理学检测

3、Reconstruction

4、Synthesis

5、Denoising

6、Localisation

7、Registration

4、讨论

4.1、当前的机遇和挑战

挑战：

机会：

重要性和缺点

4.2、后混合模型时代的未来展望，Full transformers，ChatGPT和超越

迁移学习来自于未来

5、总结

6、参考

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Is attention all you need? 注意力可能并不是完美的！

1、简介

1.1、医学图像分析和卷积

1.2、与注意力卷积的混合

2、方法

2.1、文献综述策略

2.2、数据析取

3、结果

3.1、研究趋势

3.2、实验设置和关键架构设计招募的医学成像模式

1、CNN model used

2、Transformer and attention mechanisms

3、Medical image analysis (downstream) task

4、Organs analysed

5、Transformers and medical imaging

6、CNN 和 Transf/Attention结合

7、下游任务和临床应用

3.3、性能和泛化机会

1、Segmentation

2、病理学检测

3、Reconstruction

4、Synthesis

5、Denoising

6、Localisation

7、Registration

4、讨论

4.1、当前的机遇和挑战

挑战：

机会：

重要性和缺点

4.2、后混合模型时代的未来展望，Full transformers，ChatGPT和超越

迁移学习来自于未来

5、总结

6、参考

热门文章

最新文章

相关电子书