解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)

简介: 解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)

1简介


Transformer架构已经在许多自然语言处理任务中取得成功。然而,它在医学视觉中的应用在很大程度上仍未得到探索。在这项研究中,本文提出了UTNet,这是一种简单而强大的混合Transformer架构,它将自注意力集成到卷积神经网络中,以增强医学图像分割。

UTNet在编码器和解码器中应用自注意力模块,以最小的开销捕获不同规模的远程依赖。为此,作者提出了一种有效的自注意力机制以及相对位置编码,将自注意力操作的复杂性从O(n2)显著降低到近似O(n)。还提出了一种新的自注意力解码器,以从编码器中跳过的连接中恢复细粒度的细节。

本文所提的方法解决了Transformer需要大量数据来学习视觉归纳偏差的困境。同时混合层设计允许在不需要预训练的情况下将Transformer初始化为卷积网络。

作者通过实验观察到UTNet相对于最先进方法具有卓越分割性能和鲁棒性,有望在其他医学图像分割上很好地泛化。


2本文方法


2.1 Self-Attention机制的回顾

这里就不进行过多的描述了,前面关于Transformer的文章中已经说过很多次了,这里直接贴出Self-Attention的计算公式吧:

image.png

具体细节大家可以参考下面文章的内容:即插即用|卷积与Self-Attention完美融合X-volution插入CV模型将带来全任务涨点。

2.2 Efficient Self-attention Mechanism

由于图像是高度结构化的数据,在局部足迹内的高分辨率特征图中,除边界区域外,大多数像素具有相似的特征。因此,对所有像素之间的注意力计算是非常低效和冗余的。

从理论角度来看,对于长序列,自注意力本质上是低秩的,这说明大部分信息集中在最大的奇异值上。受此启发,作者提出了一种有效的自注意机制,如图所示。

image.png

主要的想法是用2个投影来映射keys和values:映射为低维度嵌入:,其中k=hw<<n,h,并且w是经过sub-sampling后feature map缩小的尺寸。

efficient self-attention定义如下:

image.png

这样,计算复杂度降低到O(nkd)。值得注意的是,低维嵌入的投影可以是任何降采样操作,如平均/最大池化,或strided convolutions。在实现中使用1×1卷积和双线性插值来对特征图进行降采样,reduced size为8。

2.3 Relative Positional Encoding

标准的自注意力模块完全丢弃了位置信息,对于高度结构化的图像内容建模是无效的。以往的研究中的正弦嵌入在卷积层中不具有平移等方差的性质。

因此,作者通过采用了二维相对位置编码添加相对高度和宽度信息。在像素和像素:

image.png

其中为像素的query向量,为像素的key向量,和分别为相对宽度和相对高度的可学习嵌入。与efficient self-attention相似,相对宽度和高度是在低维投影后计算的。包含相对位置嵌入的efficient self-attention为:

image.png

式中,是满足的沿高度和宽度尺寸的相对位置对数矩阵。

2.4 Network Architecture

如图,作者试图将卷积和自注意机制结合在一起。因此,混合架构可以利用卷积图像的归纳偏差来避免大规模的预训练,以及Transformer捕获远距离关系的能力。

由于错误分割区域通常位于感兴趣区域的边界,高分辨率上下文信息在分割过程中起着至关重要的作用。因此,作者将重点放在提出的自注意模块上,使其能够有效地处理大尺寸特征地图。


3实验


3.1 SOTA结果

3.2 消融实验

3.3 可视化结果


4参考


[1].UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation

相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
大模型开发:什么是Transformer架构及其重要性?
Transformer模型革新了NLP,以其高效的并行计算和自注意力机制解决了长距离依赖问题。从机器翻译到各种NLP任务,Transformer展现出卓越性能,其编码器-解码器结构结合自注意力层和前馈网络,实现高效训练。此架构已成为领域内重要里程碑。
35 2
|
2月前
|
机器学习/深度学习 XML 自然语言处理
Transformer 架构—Encoder-Decoder
Transformer 架构—Encoder-Decoder
85 1
|
4月前
|
机器学习/深度学习 算法 PyTorch
挑战Transformer的新架构Mamba解析以及Pytorch复现
今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模”
809 1
|
3月前
|
机器学习/深度学习 资源调度 数据可视化
Mamba详细介绍和RNN、Transformer的架构可视化对比
Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。
321 2
|
3月前
|
机器学习/深度学习 人工智能
大模型架构将迎来除 Transformer 之外的突破
大模型架构将迎来除 Transformer 之外的突破
52 2
大模型架构将迎来除 Transformer 之外的突破
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer类架构的发展带动多模态融合
【1月更文挑战第21天】Transformer类架构的发展带动多模态融合
48 1
Transformer类架构的发展带动多模态融合
|
4月前
|
机器学习/深度学习 存储 人工智能
另一种替代Transformer架构将得到有意义的采用
【1月更文挑战第15天】另一种替代Transformer架构将得到有意义的采用
60 2
另一种替代Transformer架构将得到有意义的采用
|
4月前
|
NoSQL Java 关系型数据库
基于java Swing 和 mysql实现的飞机订票系统(源码+数据库+ppt+ER图+流程图+架构说明+论文+运行视频指导)
基于java Swing 和 mysql实现的飞机订票系统(源码+数据库+ppt+ER图+流程图+架构说明+论文+运行视频指导)
238 0
|
8月前
|
Kubernetes 调度 云计算
字节跳动基础架构编排调度团队论文入选云计算领域顶会 SoCC 2023
2023 年 10 月 30 日至 11 月 1 日, SoCC 2023 将在美国加州 Santa Cruz 举行。 字节跳动基础架构 - 编排调度团队的研究成果被 S o CC 2023 接收,并受邀进行现场报告。 SoCC 会议全称 Annual ACM Symposium on Cloud Computing,是 云计算领域顶级会议之一,同时也是 ACM 所有会议当中唯一一个同时被 SIGMOD 和 SIGOPS 赞助的顶会。代表了当前云计算领域在学术界、工业界和开源社区的前沿水平。SoCC 会议伴随着云计算的兴起而成立,至今已经举办到第 14 届。该会议每年吸引全球顶级研究机构和知名
266 0
|
8月前
|
存储 Cloud Native 测试技术
多主架构:VLDB 技术论文《Taurus MM: bringing multi-master to the cloud》解读
本文分享自华为云社区《多主创新,让云数据库性能更卓越》,作者: GaussDB 数据库。 华为《Taurus MM: bringing multi-master to the cloud》论文被国际数据库顶会 VLDB 2023 录用,这篇论文里讲述了符合云原生数据库特点的超燃技术。介绍了如何通过各种黑科技减少云原生数据库的网络消耗,进而提升云原生数据库的性能和稳定性。下面就让我们抽丝剥茧,细细品味技术的魅力,揭开华为云数据库多主技术的面纱。 说明:技术论文中的 Taurus 在华为云商用的产品名是 GaussDB (for MySQL),是 GaussDB (for MySQL) 的云原
60 0