NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer

简介: NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer

Title: Class-Aware Adversarial Transformers for Medical Image Segmentation


Paper: https://arxiv.org/pdf/2201.10737v5.pdf | Accepted by NeurlIPS 2022


Author: Chenyu You et al. (耶鲁大学 & 德州大学 & 牛津大学)


本文主要还是围绕 Transformer 在医学图像分割领域的应用,方法都是比较常规的,对于需要发论文找 Idea 的同学建议可以多看看这些文章,比较适合入门级发表,下面笔者简单为大家剖析下,大家只需要 get 到人家那个点就行了,精度提升其实这些都没啥意义,懂的自然懂。u1s1,这年头 Transformer 真的是 “杀疯了”,你现在做个啥任务不套个 变形金刚 你都不好意思丢给 reviewer 了。有趣的是,现在引用 CNNs 的人反而都演变为 Rethinking or Revisiting了? 哈哈哈~~~


这玩意挺简单的,就是一个编解码架构结合对抗训练,对于不知道如何找点发论文的同学是一篇不错的借鉴思路,例如,换个GAN架构?或者堆个其他Transformer模块?再不行做成实时语义分割或者扩展到3D和视频序列?有精力的再加点噪声(Diffusion)?没卡(钱)的换个弱监督或者域自适应?数学工程能力好点的集成点图卷积或者传统算法进去?


9d3d71a1eb832f49ff26c629493c2a64.png


实在不行我换到显著性检测或者其他方向上做做行不行?


88137e66cc39a68f290fbcc091992228.png


什么?话说到这份上了,你还写不出一篇顶会顶刊出来?


ac8bdb04e8a952d7ea066dabe3274824.png


好了,废话不多说,直接上图把,毕竟有图有真相:


f4f2af1e534db9063dd2b20d521ba650.png


今天没什么时间写了,下面重点解读下方法部分。


Methods

Overall


如上图所示,网络是基于生成对抗方式训练的,自然而然会包含一个生成器Generator和一个判别器Discriminator。其中,Generator 是一个基于 Transformer 网络的标准 Encoder-Decoder 架构,a.w.a CASTformer,共包含四个组件(从左往右):


  • 编码器(特征提取器)模块
  • 类感知Transformer模块
  • Transformer编码器模块
  • 解码器模块


其中,生成器部分共包含四个阶段和四个并行子网,所有阶段共享一个相似的架构,其中包含补丁嵌入层、类感知层以及多个 Transformer 编码器层。


笔者建议:设计网络结构的时候建议按照这种模块化的思路设计,一方面整体架构清晰易懂,另一方面消融实验也比较好做。


Encoder


编码器部分作者采用的方式是 CNN+Transformer 的组合来生成多尺度特征图,这样做有两个优势:


使用 CNNs 主干有助于 Transformer 在下游视觉任务中表现更好;

Transformer 提供高分辨率特征图以及并行的中低分辨率特征图,可以获得更好的表征。


如此一来,便可以利用 Transformer 构建特征金字塔,并将多尺度特征图用于下游的医学分割任务。通过构建多层级的特征图,模型能够更好的构建不同分辨率下的空间局部上下文信息。


Hierarchical Feature Representation


按经验看,人脑视觉机理高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图。抽象层面越高,存在的可能猜测就越少。


在深度学习中,网络的学习机理亦是如此,浅层特征注重空间细节,高层特征注重语义信息。因此,本文,或者说是绝大多数深度学习网络,几乎都是考虑这种分层式的特征表示架构,从而获取不同层级所需的上下文。


Class-aware Transfomer


a202bc89dfb7bbe68e0a10d021e740c7.png

(a)Class-aware Transfomer 模块和(b) Transfomer 网络。


Class-aware Transfomer 旨在自适应地关注对象的有用区域(例如潜在的解剖特征和结构信息)。


Class-aware Transfomer 模块属于一种迭代优化过程,其原理如下:


image.png

对于给定的给定特征图 F_{1},通过将它们与最后一步的估计偏移向量相加来迭代更新其采样位置;

采用双线性插值获取最终的采样特征;

最后,再同中间特征一同作为 Transfomer 模块的输入,输出结构化特征序列。


Transformer Encoder Module

Transformer 编码器模块(TEM)旨在通过从输入图像块嵌入的完整序列中聚合全局上下文信息来对远程上下文信息进行建模。在具体的实现中,Transformer 编码器模块遵循原始 ViT 中的架构,由多头自注意力(MSA)和多层感知机(MLP)块组成。


Decoder Module

解码器旨在根据四个不同分辨率的输出特征图生成分割掩码。在实现中,作者并没有设计需要高计算需求的解码器模块,而是参考 Segformer 合并了一个轻量级的纯 MLP 解码器,这种简单的设计能够更有效地产生强大的表示。


解码器设计思路如下:


  • 多尺度特征的通道维度通过 MLP 层进行统一;
  • 所有特征图统一上采样到 1/4 并将其全部连接在一起;
  • 利用 MLP 层融合级联特征,然后根据融合特征预测多类分割掩码。、


Discriminator Network

判别器部分比较简单,作者直接采用 ImageNet-1k 数据集上预训练好的 R50+ViT-B/16 混合权重。一般来说,使用预训练权重对于数据量有限的任务时非常重要滴。紧接着,简单地应用两层多层感知器来预测类感知图像的类别。


判别器试图在真实样本和假样本之间进行分类,Generator 和 Discrimitor 通过试图达到 minimax 博弈的平衡点来相互竞争。使用这种结构使鉴别器能够对远距离上下文依赖性进行建模,从而更好地评估医学图像的保真度,这也从本质上赋予了模型对解剖视觉模态(分类特征)的更全面的理解。


Loss Function

损失函数部分主要包含两部分,生成器部分是一个标准的医学图像分割网络,同样的也应用了 CE + Dice 损失的组合方式,这也是绝大多数医学图像分割常标配的方式。对抗训练则应用了 WGAN-GP loss。


BCE loss 大家都比较熟悉,主要问题是会受到样本不均衡的影响;而 Dice loss 比较适用于样本极度不均的情况,但是在一般的情况下,使用 Dice 损失会对反向传播造成不利的影响,反而容易使训练变得不稳定。因此,通常都会结合两者一起使用。


4cc4fed33ba379a2525148a993994589.png


关于损失函数这块有不清楚的同学,也可以查阅公众号历史文章《一文看尽深度学习中的各种损失函数》。


Experiments

Dataset

Synapse

LiTS

MP-MRI

Metrics

Dice coefficient (Dice)

Jaccard Index (Jaccard)

95% Hausdorff Distance (95HD)

Average Symmetric Surface Distance (ASD)

Implementation Details

Optimizer: AdamW

LR: 5 e − 4

BatchSize: 6

Epochs: 300

Resolution: 224×224

PatchSize: 14

Hardware: 1 * NVIDIA GeForce RTX 3090 GPT with 24GB of memory

Results


988fd890d767f5b0cf04bc56fc9fa9ab.png



43b05236c5dae328b0a817e331abb15e.png


b8ffb75331f4d600bd975b34055106e5.png


f70cfff645d4a9af20b078c951e2502d.png

可以看出,CASTformer 通过精细的解剖特征和不同器官的边界信息实现了优异的分割性能。


c77377c363364c443ad2717157d1fb34.png


49bf63b375a53c0a23b33807b9dace68.png


上图黑框表示的是 Query Patch。第一行为输入图像、GT和预测标签。


Conclusion


在这项工作中,作者结合 CNN+Transformer 设计了一种简单而有效的混合网络结构 CASTformer 并用于 2D 的医学图像分割。CASTformer 通过整合多尺度金字塔结构以捕获丰富的全局空间信息和局部多尺度上下文信息。此外,进一步的应用生成对抗训练的策略用于提高分割性能,使基于 Transformer 的判别器能够捕获低级解剖特征和高级语义。最后,通过在Synapse、LiTS、MP-MRI三个主流的医学数据集上的广泛实验验证了本文方法的有效性。整体而言,笔者认为,CASTformer 为医学领域的迁移学习提供了一个崭新的视角,并初步为理解神经网络行为提供了新的见解。


image.png


如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎添加小编微信号: cv_huber,备注"CSDN",加入 CVHub 官方学术&技术交流群,一起探讨更多有趣的话题!


目录
相关文章
|
机器学习/深度学习 网络架构
揭示Transformer重要缺陷!北大提出傅里叶分析神经网络FAN,填补周期性特征建模缺陷
近年来,神经网络在MLP和Transformer等模型上取得显著进展,但在处理周期性特征时存在缺陷。北京大学提出傅里叶分析网络(FAN),基于傅里叶分析建模周期性现象。FAN具有更少的参数、更好的周期性建模能力和广泛的应用范围,在符号公式表示、时间序列预测和语言建模等任务中表现出色。实验表明,FAN能更好地理解周期性特征,超越现有模型。论文链接:https://arxiv.org/pdf/2410.02675.pdf
482 68
|
机器学习/深度学习 自然语言处理 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
719 13
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
|
机器学习/深度学习 编解码 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
691 12
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
|
机器学习/深度学习 人工智能
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer,Transformer从来没有这么灵活过!
Transformer模型在人工智能领域表现出色,但扩展其规模时面临计算成本和训练难度急剧增加的问题。北京大学、谷歌和马普所的研究人员提出了TokenFormer架构,通过将模型参数视为Token,利用Token-Parameter注意力(Pattention)层取代线性投影层,实现了灵活且高效的模型扩展。实验表明,TokenFormer在保持性能的同时大幅降低了训练成本,在语言和视觉任务上表现优异。论文链接:https://arxiv.org/pdf/2410.23168。
364 45
|
机器学习/深度学习 编解码 移动开发
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
548 7
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
|
机器学习/深度学习 人工智能 自然语言处理
揭示Transformer周期建模缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
北京大学研究团队发现,Transformer等主流神经网络在周期特征建模方面存在缺陷,如记忆数据模式而非理解内在规律,导致泛化能力受限。为此,团队提出基于傅里叶分析的Fourier Analysis Network(FAN),通过显式建模周期性特征,提升模型的理解和预测能力,减少参数和计算量,并在多个实验中验证其优越性。论文链接:https://arxiv.org/pdf/2410.02675.pdf
426 3
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
2146 30
|
机器学习/深度学习 自然语言处理 计算机视觉
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
405 0
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
1024 0
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力

热门文章

最新文章