【CaiT】如何才能使VIT网络往更深层发展

简介: 【CaiT】如何才能使VIT网络往更深层发展

前言

  近些天综合看CNN 领域内的文章以及VIT领域内的文章,在比对这两大类模型设计的特点时有一篇文章提醒到我了,它与CNN领域内的里程碑网络结构RESNET有异曲同工之妙。《Going deeper with Image Transformers》这篇论文的出现,将我们带入了一个更加深入的探索,试图回答一个重要问题:我们是否能够用Transformer模型在图像处理中取得类似于在自然语言处理中的突破?

基础回顾:残差

  残差连接(Residual Connections)是一种在深度神经网络中引入的重要技术。其主要目的是用于解决深度神经网络训练中的梯度消失和梯度爆炸等问题,同时使得深层网络的训练更加容易和高效。

  在传统的深度神经网络中,信息从网络的输入一直传递到输出,经过多个隐藏层的变换。每个隐藏层都是通过非线性激活函数(如ReLU)对上一层输出进行变换,以学习抽取更高级别的特征表示。然而,随着网络层数的增加,梯度在反向传播过程中可能会逐渐变得非常小,导致梯度消失的问题,使得深层网络难以训练。

  残差连接的核心思想是引入跳跃连接,将上一层的输入直接与当前层的输出相加,而不是直接对上一层的输出进行变换。数学上,对于一个层 的输出y和该层的输入x,残差连接可以表示为:y = F(x) + x,其中F(x) 是该层的变换操作。如果F(x) 能够逼近一个恒等映射(即输出等于输入),那么这个层就成为了一个恒等映射。

残差连接在深度神经网络中的意义在于:

  1. 缓解了梯度消失问题,使得深层网络能够更容易训练。
  2. 提高了网络的训练效率,加速了收敛过程。
  3. 允许网络层数更深,从而有助于提取更丰富和抽象的特征表示。
  4. 降低了过拟合的风险,使得网络更具泛化能力。

CaiT核心贡献

  由于《Going deeper with Image Transformers》一文中借鉴了残差连接的思想,那么如何规范化或初始化残差区域的模块适用于VIT网络就成了这篇文章的一个核心点。作者在文中分析了不同初始化之间的相互作用之后,提出了一种有效的方法。形式上,在输出的每个残差块初始化接近于0(但不是等于0)。添加这个简单的层在每个残差块提高训练的动态性后,就可以训练得到更深更高容量的VIT网络,受益于深度,在文中指的是这种方法为LayerScale

image.png

shell

复制代码

# classes
class LayerScale(nn.Module):
    def __init__(self, dim, fn, depth):
        super().__init__()
        if depth <= 18:  # epsilon detailed in section 2 of paper
            init_eps = 0.1
        elif depth > 18 and depth <= 24:
            init_eps = 1e-5
        else:
            init_eps = 1e-6
        scale = torch.zeros(1, 1, dim).fill_(init_eps)
        self.scale = nn.Parameter(scale)
        self.fn = fn
    def forward(self, x, **kwargs):
        return self.fn(x, **kwargs) * self.scale

  在Transformers中作者提出了第二个核心贡献,如下图所示。它类似于编码器/解码器的体系结构,其中分离了涉及自注意的Transformers层。在补丁之间,从专用于提取conc的类注意层中将处理过的补J放入单个向量,以便将其输入线性。分类器这种明确的分离避免了指导的矛盾目标。处理类嵌入时的注意过程。

image.png

shell

复制代码

class Attention(nn.Module):
    def __init__(self, dim, heads = 8, dim_head = 64, dropout = 0.):
        super().__init__()
        inner_dim = dim_head *  heads
        self.heads = heads
        self.scale = dim_head ** -0.5
        self.to_q = nn.Linear(dim, inner_dim, bias = False)
        self.to_kv = nn.Linear(dim, inner_dim * 2, bias = False)
        self.attend = nn.Softmax(dim = -1)
        self.dropout = nn.Dropout(dropout)
        self.mix_heads_pre_attn = nn.Parameter(torch.randn(heads, heads))
        self.mix_heads_post_attn = nn.Parameter(torch.randn(heads, heads))
        self.to_out = nn.Sequential(
            nn.Linear(inner_dim, dim),
            nn.Dropout(dropout)
        )
    def forward(self, x, context = None):
        b, n, _, h = *x.shape, self.heads
        context = x if not exists(context) else torch.cat((x, context), dim = 1)
        qkv = (self.to_q(x), *self.to_kv(context).chunk(2, dim = -1))
        q, k, v = map(lambda t: rearrange(t, 'b n (h d) -> b h n d', h = h), qkv)
        dots = einsum('b h i d, b h j d -> b h i j', q, k) * self.scale
        dots = einsum('b h i j, h g -> b g i j', dots, self.mix_heads_pre_attn)    # talking heads, pre-softmax
        attn = self.attend(dots)
        attn = self.dropout(attn)
        attn = einsum('b h i j, h g -> b g i j', attn, self.mix_heads_post_attn)   # talking heads, post-softmax
        out = einsum('b h i j, b h j d -> b h i d', attn, v)
        out = rearrange(out, 'b h n d -> b n (h d)')
        return self.to_out(out)

结语

  从这篇论文中给大家展示了残差连接在VIT网络中的价值,也从另一个角度辅证了:想要网络更深,残差连接是一个不错的手段,以及在残差连接上做一些优化改进。

相关文章
|
1月前
|
安全 网络安全 数据安全/隐私保护
网络堡垒的构建者:洞悉网络安全与信息安全的深层策略
【4月更文挑战第9天】在数字化时代,数据成为了新的价值核心。然而,随之而来的是日益复杂的网络安全威胁。从漏洞利用到信息泄露,从服务中断到身份盗用,攻击手段不断演变。本文深入剖析了网络安全的关键组成部分:识别和防范安全漏洞、加密技术的应用以及提升个体和企业的安全意识。通过探讨这些领域的最佳实践和最新动态,旨在为读者提供一套全面的策略工具箱,以强化他们在数字世界的防御能力。
|
1月前
|
SQL 监控 安全
构筑数字堡垒:网络安全与信息保护的深层剖析
【4月更文挑战第9天】在数字化时代,网络安全和信息安全已成为维护个人隐私、企业数据和国家安全不可或缺的一环。本文深入探讨了网络安全漏洞的形成机理、加密技术的进展,以及提升安全意识的重要性。通过对现有安全挑战的分析,提出了一系列创新的防御策略,并强调了构建一个全面的信息保护体系的必要性。
|
6天前
|
存储 SQL 安全
数字堡垒的构筑者:网络安全与信息安全的深层剖析
【5月更文挑战第5天】在数字化时代的浪潮中,每一次键入和点击都可能是安全威胁的潜伏点。本文将深入探讨网络安全的漏洞、加密技术的最新进展以及提升个人和企业的安全意识的重要性。通过分析当前网络环境中存在的风险,我们将揭示如何利用先进的加密方法和防御策略来构建一个更加安全的网络环境。文章还将强调持续教育和培训在维持信息完整性方面的核心作用,为读者提供一系列切实可行的安全建议。
|
8天前
|
SQL 监控 安全
数字堡垒的构筑者:网络安全与信息安全的深层剖析
【5月更文挑战第3天】 在信息技术迅猛发展的今日,网络已成为日常生活和商业活动不可或缺的一部分。然而,随着依赖度的提升,网络安全威胁也日益增多,给个人隐私保护、企业资料安全以及国家安全带来严峻挑战。本文将深入探讨网络安全漏洞的成因与类型、加密技术的进展与应用,以及提升全民网络安全意识的重要性和方法。通过分析当前网络安全面临的风险与挑战,我们旨在为读者提供一系列切实可行的防护策略,以强化数字世界的安全防线。
|
11天前
|
机器学习/深度学习 安全 网络安全
数字堡垒的构筑者:网络安全与信息安全的深层剖析构建高效微服务架构:后端开发的新趋势
【4月更文挑战第30天】在信息技术高速发展的今天,构建坚不可摧的数字堡垒已成为个人、企业乃至国家安全的重要组成部分。本文深入探讨网络安全漏洞的本质、加密技术的进展以及提升安全意识的必要性,旨在为读者提供全面的网络安全与信息安全知识框架。通过对网络攻防技术的解析和案例研究,我们揭示了防御策略的关键点,并强调了持续教育在塑造安全文化中的作用。
|
11天前
|
SQL 安全 物联网
数字堡垒之钥:网络安全与信息安全的深层防护
【4月更文挑战第30天】 在数字化时代,信息成为最宝贵的资产之一。然而,随之而来的是网络安全威胁的日益增加。本文将深入探讨网络安全漏洞的本质、加密技术的最新发展以及提升安全意识的重要性。通过分析网络攻击的常见形式,我们揭示了防御策略的关键要素,并讨论了如何通过多层次的安全措施来构建坚固的防御体系。文章的目的是为读者提供一把打开数字世界保护伞的钥匙,确保个人和组织的资产安全。
|
14天前
|
安全 网络安全 数据安全/隐私保护
数字堡垒的构筑者:网络安全与信息安全的深层剖析
【4月更文挑战第27天】在数字化时代的浪潮中,网络空间已成为战略资源的新领域。本文深入探讨网络安全漏洞的形成机理、加密技术的进展以及提升安全意识的重要性。通过分析当前的网络威胁模型,我们揭示了漏洞产生的根源和防御策略。进一步地,文章阐述了现代加密技术如对称加密、非对称加密和散列函数的核心原理及其应用。最后,强调了构建强大的网络安全防线不仅需要技术手段,还需培养全民的安全意识。
|
18天前
|
SQL 人工智能 安全
数字堡垒的构筑者:网络安全与信息安全的深层探索
【4月更文挑战第23天】在数字化时代,网络安全与信息安全已成为维护社会稳定、保障个人隐私和确保企业经济利益不可或缺的一环。本文将深入剖析网络安全漏洞的本质,探讨当前加密技术的进展,并强调提升安全意识的必要性。通过技术层面的分析和实践案例的分享,旨在为读者提供一个关于如何构建坚固网络防线的全面视角。
|
1月前
|
安全 网络安全 量子技术
数字堡垒的构建者:网络安全与信息安全的深层剖析
【4月更文挑战第9天】 在数字化时代,数据成为了新的石油,而网络安全则是保护这些宝贵资源不被非法开采的关键。本文将深入探讨网络安全的核心议题,包括漏洞挖掘、加密技术以及提升安全意识的重要性。通过对常见网络威胁的分析,我们揭示了防护机制中存在的薄弱环节,并提出了一系列创新策略来强化我们的数字防线。文章不仅聚焦于技术层面的解决方案,还强调了培养全民安全意识的必要性,以形成全方位的网络安全防护体系。
|
1月前
|
监控 安全 网络安全
数字堡垒之钥:网络安全与信息安全的深层防护
【4月更文挑战第8天】 在数字化时代,数据成为了新的货币,而网络安全则是保护这些“货币”不被非法获取、篡改或破坏的关键。本文将探讨网络安全漏洞的概念、加密技术的应用以及提升个人和企业的安全意识。通过分析当前网络威胁的面貌,我们揭示了安全防御的必要性,并提供了实用的策略和建议,以增强信息资产的保护。