【CaiT】如何才能使VIT网络往更深层发展

简介: 【CaiT】如何才能使VIT网络往更深层发展

前言

  近些天综合看CNN 领域内的文章以及VIT领域内的文章,在比对这两大类模型设计的特点时有一篇文章提醒到我了,它与CNN领域内的里程碑网络结构RESNET有异曲同工之妙。《Going deeper with Image Transformers》这篇论文的出现,将我们带入了一个更加深入的探索,试图回答一个重要问题:我们是否能够用Transformer模型在图像处理中取得类似于在自然语言处理中的突破?

基础回顾:残差

  残差连接(Residual Connections)是一种在深度神经网络中引入的重要技术。其主要目的是用于解决深度神经网络训练中的梯度消失和梯度爆炸等问题,同时使得深层网络的训练更加容易和高效。

  在传统的深度神经网络中,信息从网络的输入一直传递到输出,经过多个隐藏层的变换。每个隐藏层都是通过非线性激活函数(如ReLU)对上一层输出进行变换,以学习抽取更高级别的特征表示。然而,随着网络层数的增加,梯度在反向传播过程中可能会逐渐变得非常小,导致梯度消失的问题,使得深层网络难以训练。

  残差连接的核心思想是引入跳跃连接,将上一层的输入直接与当前层的输出相加,而不是直接对上一层的输出进行变换。数学上,对于一个层 的输出y和该层的输入x,残差连接可以表示为:y = F(x) + x,其中F(x) 是该层的变换操作。如果F(x) 能够逼近一个恒等映射(即输出等于输入),那么这个层就成为了一个恒等映射。

残差连接在深度神经网络中的意义在于:

  1. 缓解了梯度消失问题,使得深层网络能够更容易训练。
  2. 提高了网络的训练效率,加速了收敛过程。
  3. 允许网络层数更深,从而有助于提取更丰富和抽象的特征表示。
  4. 降低了过拟合的风险,使得网络更具泛化能力。

CaiT核心贡献

  由于《Going deeper with Image Transformers》一文中借鉴了残差连接的思想,那么如何规范化或初始化残差区域的模块适用于VIT网络就成了这篇文章的一个核心点。作者在文中分析了不同初始化之间的相互作用之后,提出了一种有效的方法。形式上,在输出的每个残差块初始化接近于0(但不是等于0)。添加这个简单的层在每个残差块提高训练的动态性后,就可以训练得到更深更高容量的VIT网络,受益于深度,在文中指的是这种方法为LayerScale

image.png

shell

复制代码

# classes
class LayerScale(nn.Module):
    def __init__(self, dim, fn, depth):
        super().__init__()
        if depth <= 18:  # epsilon detailed in section 2 of paper
            init_eps = 0.1
        elif depth > 18 and depth <= 24:
            init_eps = 1e-5
        else:
            init_eps = 1e-6
        scale = torch.zeros(1, 1, dim).fill_(init_eps)
        self.scale = nn.Parameter(scale)
        self.fn = fn
    def forward(self, x, **kwargs):
        return self.fn(x, **kwargs) * self.scale

  在Transformers中作者提出了第二个核心贡献,如下图所示。它类似于编码器/解码器的体系结构,其中分离了涉及自注意的Transformers层。在补丁之间,从专用于提取conc的类注意层中将处理过的补J放入单个向量,以便将其输入线性。分类器这种明确的分离避免了指导的矛盾目标。处理类嵌入时的注意过程。

image.png

shell

复制代码

class Attention(nn.Module):
    def __init__(self, dim, heads = 8, dim_head = 64, dropout = 0.):
        super().__init__()
        inner_dim = dim_head *  heads
        self.heads = heads
        self.scale = dim_head ** -0.5
        self.to_q = nn.Linear(dim, inner_dim, bias = False)
        self.to_kv = nn.Linear(dim, inner_dim * 2, bias = False)
        self.attend = nn.Softmax(dim = -1)
        self.dropout = nn.Dropout(dropout)
        self.mix_heads_pre_attn = nn.Parameter(torch.randn(heads, heads))
        self.mix_heads_post_attn = nn.Parameter(torch.randn(heads, heads))
        self.to_out = nn.Sequential(
            nn.Linear(inner_dim, dim),
            nn.Dropout(dropout)
        )
    def forward(self, x, context = None):
        b, n, _, h = *x.shape, self.heads
        context = x if not exists(context) else torch.cat((x, context), dim = 1)
        qkv = (self.to_q(x), *self.to_kv(context).chunk(2, dim = -1))
        q, k, v = map(lambda t: rearrange(t, 'b n (h d) -> b h n d', h = h), qkv)
        dots = einsum('b h i d, b h j d -> b h i j', q, k) * self.scale
        dots = einsum('b h i j, h g -> b g i j', dots, self.mix_heads_pre_attn)    # talking heads, pre-softmax
        attn = self.attend(dots)
        attn = self.dropout(attn)
        attn = einsum('b h i j, h g -> b g i j', attn, self.mix_heads_post_attn)   # talking heads, post-softmax
        out = einsum('b h i j, b h j d -> b h i d', attn, v)
        out = rearrange(out, 'b h n d -> b n (h d)')
        return self.to_out(out)

结语

  从这篇论文中给大家展示了残差连接在VIT网络中的价值,也从另一个角度辅证了:想要网络更深,残差连接是一个不错的手段,以及在残差连接上做一些优化改进。

相关文章
|
6月前
|
安全 网络安全 数据安全/隐私保护
网络堡垒的构建者:洞悉网络安全与信息安全的深层策略
【4月更文挑战第9天】在数字化时代,数据成为了新的价值核心。然而,随之而来的是日益复杂的网络安全威胁。从漏洞利用到信息泄露,从服务中断到身份盗用,攻击手段不断演变。本文深入剖析了网络安全的关键组成部分:识别和防范安全漏洞、加密技术的应用以及提升个体和企业的安全意识。通过探讨这些领域的最佳实践和最新动态,旨在为读者提供一套全面的策略工具箱,以强化他们在数字世界的防御能力。
|
6月前
|
SQL 监控 安全
构筑数字堡垒:网络安全与信息保护的深层剖析
【4月更文挑战第9天】在数字化时代,网络安全和信息安全已成为维护个人隐私、企业数据和国家安全不可或缺的一环。本文深入探讨了网络安全漏洞的形成机理、加密技术的进展,以及提升安全意识的重要性。通过对现有安全挑战的分析,提出了一系列创新的防御策略,并强调了构建一个全面的信息保护体系的必要性。
|
6月前
|
SQL 安全 物联网
数字堡垒:网络安全与信息安全的深层防护
【5月更文挑战第28天】 在数字化时代,数据成为了新的金矿,但随之而来的是日益猖獗的网络威胁。本文将深入探讨网络安全漏洞的本质、加密技术的进展以及提升个人和企业的安全意识的重要性。通过对这些关键方面的分析,我们旨在为读者提供一套加强网络和信息安全防护的策略。
|
6月前
|
SQL 安全 算法
数字堡垒的构筑者:网络安全与信息安全的深层探索
【5月更文挑战第26天】在数字化时代,数据成为了新的石油,但随之而来的是网络安全威胁的日益严峻。本文深入分析了网络安全漏洞的形成机理、加密技术的最新进展以及提升安全意识的重要性。通过探讨当前网络攻防战中的关键要素,我们旨在为读者提供一份全面的网络安全知识图谱,帮助个人和企业在信息高速公路上构建起坚固的数字防线。
|
6月前
|
安全 算法 网络安全
数字堡垒的构建者:网络安全与信息安全的深层探索
【5月更文挑战第21天】 在数字化时代,数据如同流动的血液,而网络安全则是维持这生命之河纯净与畅通的关键。本文将深入剖析网络安全领域的核心议题,包括网络漏洞的成因、加密技术的进展以及提升安全意识的策略。通过对这些关键要素的细致解读,我们旨在为读者构建一个坚实的网络安全知识框架,以应对日益复杂的网络威胁。
49 3
|
6月前
|
监控 安全 网络安全
构筑数字堡垒:网络安全与信息安全的深层防御
【5月更文挑战第17天】在数字化时代,数据成为了新的货币,而网络安全和信息安全则是保护这些“财富”不被盗窃、篡改或破坏的关键。本文将深入探讨网络安全漏洞的本质,加密技术的最新进展,以及提升个人和企业的安全意识的重要性。通过分析当前的安全挑战,我们旨在分享如何构建一个多层次的防御体系,以保护个人、公司和国家免受网络威胁的侵害。
|
6月前
|
监控 安全 算法
数字堡垒的构建者:网络安全与信息安全的深层探索
【5月更文挑战第20天】在数字化时代,数据成为了新的石油,而网络安全则是保护这些宝贵资源不受侵犯的数字堡垒。本文深入探讨了网络安全漏洞的形成、加密技术的应用以及提升安全意识的重要性。通过对当前网络威胁的分析,我们揭示了防御策略的核心原则,并提供了实用的安全建议,旨在为读者打造一道坚不可摧的信息安全防线。
|
6月前
|
SQL 安全 算法
数字堡垒的构建者:网络安全与信息安全的深层剖析
【5月更文挑战第12天】在信息技术迅猛发展的今天,网络空间已成为信息交流的重要平台。然而,随之而来的是各种网络安全漏洞和威胁的增多。本文深入探讨了网络安全漏洞的类型、成因以及预防措施,并详细分析了加密技术在保障信息安全中的应用。文章还强调了提升个人和企业安全意识的重要性,并分享了如何通过教育和培训来增强这一意识。通过对这些关键方面的知识分享,旨在为读者提供一个全面的网络安全与信息安全视角。
|
6月前
|
SQL 监控 安全
数字堡垒的构筑者:网络安全与信息安全的深层剖析
【5月更文挑战第3天】 在信息技术迅猛发展的今日,网络已成为日常生活和商业活动不可或缺的一部分。然而,随着依赖度的提升,网络安全威胁也日益增多,给个人隐私保护、企业资料安全以及国家安全带来严峻挑战。本文将深入探讨网络安全漏洞的成因与类型、加密技术的进展与应用,以及提升全民网络安全意识的重要性和方法。通过分析当前网络安全面临的风险与挑战,我们旨在为读者提供一系列切实可行的防护策略,以强化数字世界的安全防线。
|
6月前
|
存储 SQL 安全
数字堡垒的构筑者:网络安全与信息安全的深层剖析
【5月更文挑战第5天】在数字化时代的浪潮中,每一次键入和点击都可能是安全威胁的潜伏点。本文将深入探讨网络安全的漏洞、加密技术的最新进展以及提升个人和企业的安全意识的重要性。通过分析当前网络环境中存在的风险,我们将揭示如何利用先进的加密方法和防御策略来构建一个更加安全的网络环境。文章还将强调持续教育和培训在维持信息完整性方面的核心作用,为读者提供一系列切实可行的安全建议。
下一篇
无影云桌面