每日学术速递5.5

简介: 我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CL


1.ResiDual: Transformer with Dual Residual Connections

38d58f2b8351a937f78b4993c1ca880f.png

标题:ResiDual:具有双剩余连接的Transformer

作者:Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan

文章链接:https://arxiv.org/abs/2304.14802

项目代码:https://github.com/microsoft/ResiDual

2e531e805311198887d5f03fb2db70d4.png

70d78fd0bea569eb773b4c8430e4feea.png

473470c0a78b2f2e745ea998ea8b5bd7.png

摘要:

       由于其最先进的性能,Transformer 网络已成为许多任务的首选架构。然而,在 Transformer 中实现残差连接的最佳方式仍然存在争议,这对于有效训练至关重要。两种广泛使用的变体是后层归一化 (Post-LN) 和前层归一化 (Pre-LN) 变换器,它们分别在每个残差块的输出之后或每个残差块的输入之前应用层归一化。虽然这两种变体都有其优势,但它们也有严重的局限性:Post-LN 导致梯度消失问题,阻碍了深度 Transformers 的训练,而 Pre-LN 导致表示崩溃问题,限制了模型容量。在本文中,我们提出了 ResiDual,一种具有 Pre-Post-LN (PPLN) 的新型 Transformer 架构,它将 Post-LN 和 Pre-LN 中的连接融合在一起,继承了它们的优点,同时避免了它们的局限性。我们进行了理论分析和实证实验来验证 Residual 的有效性。从理论上讲,我们证明 ResiDual 在梯度上有一个下限,以避免由于 Pre-LN 的残差连接而导致的消失问题。此外,Residual 还具有多样化的模型表示,以避免由于 Post-LN 的残差连接而导致的崩溃问题。根据经验,Residual 在不同网络深度和数据大小的多个机器翻译基准测试中优于 Post-LN 和 Pre-LN。由于良好的理论和实证性能,Residual Transformer 可以作为不同 AI 模型(例如,大型语言模型)的基础架构。我们的代码可在此 https URL 上获得。

2.Learning to Reason and Memorize with Self-Notes

6d968ac8fb6882213e6e54a2d7434988.png

标题:ImageReward:学习和评估人类对文本到图像生成的偏好

作者:Jack Lanchantin, Shubham Toshniwal, Jason Weston, Arthur Szlam, Sainbayar Sukhbaatar

文章链接:https://arxiv.org/abs/2305.00833

398fac4dfc74c04a56fe3dacd8375829.png

0a0c09db22eaf573f453485051b4bd46.png

723b395124895dc709c0c11c3a85cdf9.png

f592a01bbaa030759375ad4a63d4157c.png

c4429c3d95a683de287ad24fa4b3e28f.png

摘要:

       大型语言模型已被证明难以应对有限的上下文记忆和多步推理。我们提出了一种简单的方法来解决这两个问题,即允许模型进行自我注释。与最近的暂存器方法不同,该模型可以随时偏离输入上下文以明确思考。这允许模型在读取上下文时即时调用信息并执行推理,从而扩展其记忆并实现多步推理。我们对多项任务的实验表明,我们的方法可以通过在推理时进行自我注释,成功地从训练设置中泛化到更长、更复杂的实例。

Subjects: cs.CV


3.MMViT: Multiscale Multiview Vision Transformers

d162ca14b3bbbb8f6630137060f37ddf.png

标题:MMViT:多尺度多视图视觉Transformer

作者:Yuchen Liu, Natasha Ong, Kaiyan Peng, Bo Xiong, Qifan Wang, Rui Hou, Madian Khabsa, Kaiyue Yang, David Liu, Donald S. Williamson, Hanchao Yu

文章链接:https://arxiv.org/abs/2305.00104

5891bbfd594ca2c911999746d2ee17b7.png

b2deb13d946e6a9dfa05ffa4e7c2e3b7.png

11bda8d73a4983009ccacf1705ee97bd.png

摘要:

       我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段,以并行处理不同分辨率下输入的多个视图。在每个规模阶段,我们使用交叉注意块来融合不同视图的信息。这使 MMViT 模型能够以不同的分辨率获取输入的复杂高维表示。所提出的模型可以作为多个领域的骨干模型。我们展示了 MMViT 在音频和图像分类任务上的有效性,实现了最先进的结果

目录
打赏
0
0
0
0
12
分享
相关文章
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
216 0
每日学术速递3.20
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
225 0
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
249 0
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
157 0
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
144 0
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
184 0
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
232 0
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
110 0
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
207 0
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
214 0