每日学术速递5.5

简介: 我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CL


1.ResiDual: Transformer with Dual Residual Connections

38d58f2b8351a937f78b4993c1ca880f.png

标题:ResiDual:具有双剩余连接的Transformer

作者:Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan

文章链接:https://arxiv.org/abs/2304.14802

项目代码:https://github.com/microsoft/ResiDual

2e531e805311198887d5f03fb2db70d4.png

70d78fd0bea569eb773b4c8430e4feea.png

473470c0a78b2f2e745ea998ea8b5bd7.png

摘要:

       由于其最先进的性能,Transformer 网络已成为许多任务的首选架构。然而,在 Transformer 中实现残差连接的最佳方式仍然存在争议,这对于有效训练至关重要。两种广泛使用的变体是后层归一化 (Post-LN) 和前层归一化 (Pre-LN) 变换器,它们分别在每个残差块的输出之后或每个残差块的输入之前应用层归一化。虽然这两种变体都有其优势,但它们也有严重的局限性:Post-LN 导致梯度消失问题,阻碍了深度 Transformers 的训练,而 Pre-LN 导致表示崩溃问题,限制了模型容量。在本文中,我们提出了 ResiDual,一种具有 Pre-Post-LN (PPLN) 的新型 Transformer 架构,它将 Post-LN 和 Pre-LN 中的连接融合在一起,继承了它们的优点,同时避免了它们的局限性。我们进行了理论分析和实证实验来验证 Residual 的有效性。从理论上讲,我们证明 ResiDual 在梯度上有一个下限,以避免由于 Pre-LN 的残差连接而导致的消失问题。此外,Residual 还具有多样化的模型表示,以避免由于 Post-LN 的残差连接而导致的崩溃问题。根据经验,Residual 在不同网络深度和数据大小的多个机器翻译基准测试中优于 Post-LN 和 Pre-LN。由于良好的理论和实证性能,Residual Transformer 可以作为不同 AI 模型(例如,大型语言模型)的基础架构。我们的代码可在此 https URL 上获得。

2.Learning to Reason and Memorize with Self-Notes

6d968ac8fb6882213e6e54a2d7434988.png

标题:ImageReward:学习和评估人类对文本到图像生成的偏好

作者:Jack Lanchantin, Shubham Toshniwal, Jason Weston, Arthur Szlam, Sainbayar Sukhbaatar

文章链接:https://arxiv.org/abs/2305.00833

398fac4dfc74c04a56fe3dacd8375829.png

0a0c09db22eaf573f453485051b4bd46.png

723b395124895dc709c0c11c3a85cdf9.png

f592a01bbaa030759375ad4a63d4157c.png

c4429c3d95a683de287ad24fa4b3e28f.png

摘要:

       大型语言模型已被证明难以应对有限的上下文记忆和多步推理。我们提出了一种简单的方法来解决这两个问题,即允许模型进行自我注释。与最近的暂存器方法不同,该模型可以随时偏离输入上下文以明确思考。这允许模型在读取上下文时即时调用信息并执行推理,从而扩展其记忆并实现多步推理。我们对多项任务的实验表明,我们的方法可以通过在推理时进行自我注释,成功地从训练设置中泛化到更长、更复杂的实例。

Subjects: cs.CV


3.MMViT: Multiscale Multiview Vision Transformers

d162ca14b3bbbb8f6630137060f37ddf.png

标题:MMViT:多尺度多视图视觉Transformer

作者:Yuchen Liu, Natasha Ong, Kaiyan Peng, Bo Xiong, Qifan Wang, Rui Hou, Madian Khabsa, Kaiyue Yang, David Liu, Donald S. Williamson, Hanchao Yu

文章链接:https://arxiv.org/abs/2305.00104

5891bbfd594ca2c911999746d2ee17b7.png

b2deb13d946e6a9dfa05ffa4e7c2e3b7.png

11bda8d73a4983009ccacf1705ee97bd.png

摘要:

       我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段,以并行处理不同分辨率下输入的多个视图。在每个规模阶段,我们使用交叉注意块来融合不同视图的信息。这使 MMViT 模型能够以不同的分辨率获取输入的复杂高维表示。所提出的模型可以作为多个领域的骨干模型。我们展示了 MMViT 在音频和图像分类任务上的有效性,实现了最先进的结果

目录
相关文章
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
150 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
124 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
175 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
152 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
122 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
138 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
76 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
96 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
112 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
138 0

热门文章

最新文章