每日学术速递4.16

简介: 我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.SpectFormer: Frequency and Attention is what you need in a Vision Transformer


39cf253027d76e7c3332624fdb20f961.png


标题:SpectFormer:频率和注意力是您在 Vision Transformer 中所需要的

作者:Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran

文章链接:https://arxiv.org/abs/2304.06446

项目代码:https://badripatro.github.io/SpectFormers/

eae9e9a787926192497ba3a9bfccfa3d.png

97c1832ea14701ed428d363d728661c5.png

1756f458f757f0fdb03e8bc22837588d.png

ddff444573235a38a16590c81bed52d2.png

83492e6c8c67c0ca391fbc05e9205794.png

摘要:

       视觉Transformer已成功应用于图像识别任务。已经有基于多头自注意力ViT、DeIT、类似于文本模型中的原始工作,或者最近基于光谱层Fnet, GFNet,AFNO。我们假设光谱注意力和多头注意力都起着重要作用。我们通过这项工作研究了这个假设,并观察到确实结合了光谱和多头注意层提供了更好的转换器架构。因此,我们为变压器提出了新颖的 Spectformer 架构,它结合了光谱和多头注意层。我们相信,由此产生的表示允许变换器适当地捕获特征表示,并且它比其他变换器表示产生更高的性能。例如,与 GFNet-H 和 LiT 相比,它在 ImageNet 上的 top-1 精度提高了 2%。SpectFormer-S 在 ImageNet-1K(小型版本的最新技术)上达到 84.25% top-1 准确率。此外,Spectformer-L 达到了 85.7%,这是同类变压器基础版本的最新技术水平。我们进一步确保我们在其他场景中获得合理的结果,例如在 CIFAR-10、CIFAR-100、Oxford-IIIT-flower 和 Standford Car 数据集等标准数据集上进行迁移学习。然后,我们研究了它在 MS-COCO 数据集上的目标检测和实例分割等下游任务中的用途,并观察到 Spectformer 表现出与最佳主干相媲美的一致性能,并且可以进一步优化和改进。因此,我们相信组合的光谱层和注意力层是视觉转换器所需要的。

2.Verbs in Action: Improving verb understanding in video-language models

d32345ee31888bf8e2efe4c35531536a.png

标题:行动中的动词:提高视频语言模型中的动词理解

作者:Liliane Momeni, Mathilde Caron, Arsha Nagrani, Andrew Zisserman, Cordelia Schmid

文章链接:https://arxiv.org/abs/2304.06708

1f7fb0e78663acd28002b487743f1556.png

a3ea40ee61610dddfa9956cb0e53f81c.png

摘要:

       理解动词对于模拟人和物体如何通过空间和时间相互作用以及环境至关重要。最近,基于 CLIP 的最先进的视频语言模型已被证明对动词的理解有限,并且广泛依赖名词,这限制了它们在需要动作和时间理解的真实视频应用程序中的性能。在这项工作中,我们通过提出一个新的以动词为中心的对比 (VFC) 框架来提高对基于 CLIP 的视频语言模型的动词理解。这包括两个主要部分:(1)利用预训练的大型语言模型(LLM)为跨模态对比学习创建硬底片,以及平衡正面和负面对中概念出现的校准策略;(2) 执行细粒度的动词短语对齐损失。我们的方法在三个专注于动词理解的下游任务上实现了零样本性能的最先进结果:视频文本匹配、视频问答和视频分类。据我们所知,这是第一个提出减轻动词理解问题的方法的工作,并没有简单地强调它。

3.RECLIP: Resource-efficient CLIP by Training with Small Images

bb90a093dffc953b3458667bf85663b2.png


标题:RECLIP:通过小图像训练实现资源高效的 CLIP

作者:Runze Li, Dahun Kim, Bir Bhanu, Weicheng Kuo

文章链接:https://arxiv.org/abs/2304.06028

d49286df8466624aa943e183e0504e31.png

6cc1b1063f1cc73c2675c7fb6766f365.png

04d3e24ab08a76d949a8f5d49a4389f4.png

摘要:

       我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小,我们的方法在理论上和实践中都显着减少了训练资源需求。使用相同的批量大小和训练时期,RECLIP 实现了极具竞争力的零样本分类和图像文本检索精度,计算资源比基线少 6 到 8 × ,FLOPs 少 7 到 9 × .与最先进的对比学习方法相比,RECLIP 展示了 5 到 59 × 训练资源节省,同时保持了极具竞争力的零样本分类和检索性能。我们希望这项工作能为更广泛的研究社区铺平道路,在资源更友好的环境中探索语言监督预训练。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
117 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
156 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
109 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
177 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
206 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
120 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
186 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
142 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
150 0

热门文章

最新文章