每日学术速递4.5

简介: 无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Subject-driven Text-to-Image Generation via Apprenticeship Learning


aa5a6c35bf0669511385645619fdb5a3.png


标题:通过学徒学习生成主题驱动的文本到图像

作者:Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Rui, Xuhui Jia, Ming-Wei Chang, William W. Cohen

文章链接:https://arxiv.org/abs/2304.00186

04ac2e86e445086c3804f6a820c3166c.png

670727e17b93d7c580ef1bc71c20e1f4.png

316b1ca7ed42edaf452ab4ec76f40480.png

d6840c9b8c515d683ff614417b9528b1.png

01245b3c2da0b41bac9bd6a06884d3a5.png

摘要:

       最近的文本到图像生成模型,如 DreamBooth,通过从几个例子中为给定主题微调“专家模型”,在生成目标主题的高度定制图像方面取得了显着进步。然而,这个过程是昂贵的,因为必须为每个主题学习一个新的专家模型。在本文中,我们介绍了 SuTI,一种主题驱动的文本到图像生成器,它用 \emph{in-context} 学习取代了特定主题的微调。给定一个新主题的一些演示,SuTI 可以立即在不同场景中生成该主题的新颖再现,而无需任何特定于主题的优化。SuTI 由 {\em apprenticeship learning} 提供支持,其中单个学徒模型是从大量特定主题专家模型生成的数据中学习的。具体来说,我们从 Internet 中挖掘出数百万个图像集群,每个图像集群都围绕一个特定的视觉主题。我们采用这些集群来训练大量专门针对不同主题的专家模型。学徒模型 SuTI 然后通过所提出的学徒学习算法学习模仿这些专家的行为。SuTI 可以生成高质量和定制的特定主题图像,比基于优化的 SoTA 方法快 20 倍。在具有挑战性的 DreamBench 和 DreamBench-v2 上,我们的人类评估表明 SuTI 可以显着优于 InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen 等现有方法,同时与 DreamBooth 的表现相当。

2.Vision Transformers with Mixed-Resolution Tokenization

927fed8b15d66d5ed611c819f9c0d180.png


标题:具有混合分辨率标记化的视觉转换器

作者:Tomer Ronen, Omer Levy, Avram Golbert

文章链接:https://arxiv.org/abs/2304.00287

aa84442c3e8aef6cbb17d4c219415283.png

243efc09291f2715383c033e670419fd.png

0fac60182d1fb62cc7203ea315a25b54.png

c0be4dadbb7422d565caf18dae3735e4.png

8b2c6833c3a393371c0a26c0c446c4b2.png

摘要:

       Vision Transformer 模型通过将输入图像划分为大小相等的空间规则网格来处理输入图像。相反,Transformers 最初是在自然语言序列上引入的,其中每个标记代表一个子词——一块任意大小的原始数据。在这项工作中,我们通过引入一种新颖的图像标记化方案将这种方法应用于 Vision Transformers,将标准统一网格替换为混合分辨率的标记序列,其中每个标记代表一个任意大小的补丁。使用四叉树算法和一种新颖的显着性评分器,我们构建了一个补丁马赛克,其中以低分辨率处理图像的低显着性区域,将更多模型的容量路由到重要的图像区域。使用与 vanilla ViTs 相同的架构,我们的 Quadformer 模型在控制计算预算时在图像分类方面实现了显着的准确性提升。代码和模型可在此 https URL 上公开获得。

3.SVT: Supertoken Video Transformer for Efficient Video Understanding

9cc567a4351297ead34088c486b1efe3.png

标题:SVT:用于高效视频理解的 Supertoken 视频转换器

作者:Chenbin Pan, Rui Hou, Hanchao Yu, Qifan Wang, Senem Velipasalar, Madian Khabsa

文章链接:https://arxiv.org/abs/2304.00325

6371e7926459ba7129d4617f07140040.png

a1207ca797bbaf8d140084341024a26f.png

1c7ec899a6115c728a5ddf046b4ddf57.png

f759133a0095c5a9241ad1f31214ffeb.png

摘要:

       无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。~定性结果表明我们的方法可以通过合并具有相似语义的潜在表示有效地减少冗余,从而增加下游任务的显着信息的比例。~从数量上讲,我们的方法提高了 ViT 和 MViT 的性能,同时需要显着减少 Kinetics 和 Something 的计算-Something-V2 基准。~更具体地说,通过我们的 SPM,我们将 MAE 预训练的 ViT-B 和 ViT-L 的准确性分别提高了 1.5%,GFLOP 减少了 33%,FLOP 减少了 55%,分别提高了 0.2% Kinectics-400 基准测试,并将 MViTv2-B 的精度提高 0.2% 和 0.3%,同时在 Kinectics-400 和 Something-Something-V2 上分别减少 22% 的 GFLOP。

目录
相关文章
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
79 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
122 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
100 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
158 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
147 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
122 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
123 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
141 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
138 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
151 0
下一篇
DataWorks