每日学术速递5.2

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.DataComp: In search of the next generation of multimodal datasets

a1f34374dc8a75cec590f411d48b869c.png

标题:DataComp:寻找下一代多模态数据集

作者:Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman

文章链接:https://arxiv.org/abs/2304.14108

项目代码:https://github.com/mlfoundations/datacomp

26d1c1a2b74adbf218a56757be5020c3.png

e947e807a9e0cf82486ea4ed1cbce653.png

f3ccf03bd185cd4f0097bb20f31aa3b1.png

b7ceadae61c39627b4d093eb885c5cd8.png

摘要:

       大型多模态数据集在最近的突破中发挥了重要作用,例如 CLIP、Stable Diffusion 和 GPT-4。同时,数据集很少受到与模型架构或训练算法相同的研究关注。为了解决机器学习生态系统中的这一缺点,我们引入了 DataComp,这是一种基准,其中训练代码是固定的,研究人员通过提出新的训练集来进行创新。我们为数据集实验提供了一个测试平台,该实验以来自 Common Crawl 的 12.8B 图像文本对的新候选池为中心。我们基准测试的参与者设计新的过滤技术或管理新的数据源,然后通过运行我们标准化的 CLIP 训练代码并在 38 个下游测试集上进行测试来评估他们的新数据集。我们的基准测试由多个尺度组成,具有四个候选池大小和相关的计算预算,范围从训练期间看到的 12.8M 到 12.8B 个样本。这种多尺度设计有助于研究尺度趋势,并使具有不同资源的研究人员可以访问基准。我们的基线实验表明,DataComp 工作流是改进多模态数据集的一种很有前途的方法。我们介绍了 DataComp-1B,这是一个通过对 12.8B 候选池应用简单过滤算法创建的数据集。由此产生的 1.4B 子集使 CLIP ViT-L/14 能够在 ImageNet 上从头开始训练到 79.2% 的零样本准确率。我们新的 ViT-L/14 模型比在 LAION-2B 上训练的更大的 ViT-g/14 高出 0.7 个百分点,同时需要的训练计算减少 9 倍。我们的表现也比 OpenAI 的 CLIP ViT-L/14 高出 3.7 个百分点,它是使用与我们的模型相同的计算预算进行训练的。这些收益突出了通过精心策划训练集来提高模型性能的潜力。我们将 DataComp-1B 视为第一步,并希望 DataComp 为下一代多模式数据集铺平道路。

2.Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model

07271cefd6f75aa35c0623efcfa10e0e.png

标题:使用指令调整的 LLM 和潜在扩散模型生成文本到音频

作者:Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

文章链接:https://arxiv.org/abs/2304.13731

项目代码:https://github.com/declare-lab/tango

89decd3191736ab99730b9a4a182f8fc.png

4ee4c9634b0568b2a02a19ad40937c75.png

9df0340e2a3f77feecad7476a961b8f0.png

摘要:

       最近大型语言模型 (LLM) 的巨大规模允许许多有趣的特性,例如基于指令和思想链的微调,这在许多自然语言处理中显着提高了零样本和少样本性能(NLP) 任务。受这些成功的启发,我们采用这种指令调优的 LLM Flan-T5 作为文本编码器,用于文本到音频 (TTA) 生成——目标是根据文本描述生成音频的任务。TTA 的先前工作要么预训练联合文本音频编码器,要么使用非指令调优模型,例如 T5。因此,尽管在小 63 倍的数据集上训练 LDM 并保持文本编码器冻结。这种改进也可能归因于采用基于音频压力水平的混音来增强训练集,而之前的方法采用随机混音。

3.ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System

6c72ee9c819aa9ba222cd68fdcaeef18.png

标题:ChatVideo:以 Tracklet 为中心的多模态多功能视频理解系统

作者:Junke Wang, Dongdong Chen, Chong Luo, Xiyang Dai, Lu Yuan, Zuxuan Wu, Yu-Gang Jiang

文章链接:https://arxiv.org/abs/2304.14407

项目代码:https://www.wangjunke.info/ChatVideo/

9a3a230801c797f53d6cc0a6bfcb0fc0.png

ac1bb9ccc1a291d785a67b48eb119bc2.png

f93e89c59259b02fe2fb8152a394085b.png

0e20eaee84c24e340e5fdb9f73231d6a.png


摘要:

       现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system。我们的系统建立在以 tracklet 为中心的范例之上,它将 tracklet 视为基本视频单元,并使用各种视频基础模型 (ViFM) 来注释它们的属性,例如外观、运动等。所有检测到的轨迹都存储在数据库中,并通过数据库管理器与用户交互。我们对不同类型的野外视频进行了广泛的案例研究,证明了我们的方法在回答各种视频相关问题方面的有效性。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
129 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
134 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
192 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
171 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
129 0
|
机器学习/深度学习 自然语言处理 数据挖掘
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
122 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
228 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
122 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
152 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
117 0