每日学术速递4.5

简介: 无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Subject-driven Text-to-Image Generation via Apprenticeship Learning


aa5a6c35bf0669511385645619fdb5a3.png


标题:通过学徒学习生成主题驱动的文本到图像

作者:Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Rui, Xuhui Jia, Ming-Wei Chang, William W. Cohen

文章链接:https://arxiv.org/abs/2304.00186

04ac2e86e445086c3804f6a820c3166c.png

670727e17b93d7c580ef1bc71c20e1f4.png

316b1ca7ed42edaf452ab4ec76f40480.png

d6840c9b8c515d683ff614417b9528b1.png

01245b3c2da0b41bac9bd6a06884d3a5.png

摘要:

       最近的文本到图像生成模型,如 DreamBooth,通过从几个例子中为给定主题微调“专家模型”,在生成目标主题的高度定制图像方面取得了显着进步。然而,这个过程是昂贵的,因为必须为每个主题学习一个新的专家模型。在本文中,我们介绍了 SuTI,一种主题驱动的文本到图像生成器,它用 \emph{in-context} 学习取代了特定主题的微调。给定一个新主题的一些演示,SuTI 可以立即在不同场景中生成该主题的新颖再现,而无需任何特定于主题的优化。SuTI 由 {\em apprenticeship learning} 提供支持,其中单个学徒模型是从大量特定主题专家模型生成的数据中学习的。具体来说,我们从 Internet 中挖掘出数百万个图像集群,每个图像集群都围绕一个特定的视觉主题。我们采用这些集群来训练大量专门针对不同主题的专家模型。学徒模型 SuTI 然后通过所提出的学徒学习算法学习模仿这些专家的行为。SuTI 可以生成高质量和定制的特定主题图像,比基于优化的 SoTA 方法快 20 倍。在具有挑战性的 DreamBench 和 DreamBench-v2 上,我们的人类评估表明 SuTI 可以显着优于 InstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen 等现有方法,同时与 DreamBooth 的表现相当。

2.Vision Transformers with Mixed-Resolution Tokenization

927fed8b15d66d5ed611c819f9c0d180.png


标题:具有混合分辨率标记化的视觉转换器

作者:Tomer Ronen, Omer Levy, Avram Golbert

文章链接:https://arxiv.org/abs/2304.00287

aa84442c3e8aef6cbb17d4c219415283.png

243efc09291f2715383c033e670419fd.png

0fac60182d1fb62cc7203ea315a25b54.png

c0be4dadbb7422d565caf18dae3735e4.png

8b2c6833c3a393371c0a26c0c446c4b2.png

摘要:

       Vision Transformer 模型通过将输入图像划分为大小相等的空间规则网格来处理输入图像。相反,Transformers 最初是在自然语言序列上引入的,其中每个标记代表一个子词——一块任意大小的原始数据。在这项工作中,我们通过引入一种新颖的图像标记化方案将这种方法应用于 Vision Transformers,将标准统一网格替换为混合分辨率的标记序列,其中每个标记代表一个任意大小的补丁。使用四叉树算法和一种新颖的显着性评分器,我们构建了一个补丁马赛克,其中以低分辨率处理图像的低显着性区域,将更多模型的容量路由到重要的图像区域。使用与 vanilla ViTs 相同的架构,我们的 Quadformer 模型在控制计算预算时在图像分类方面实现了显着的准确性提升。代码和模型可在此 https URL 上公开获得。

3.SVT: Supertoken Video Transformer for Efficient Video Understanding

9cc567a4351297ead34088c486b1efe3.png

标题:SVT:用于高效视频理解的 Supertoken 视频转换器

作者:Chenbin Pan, Rui Hou, Hanchao Yu, Qifan Wang, Senem Velipasalar, Madian Khabsa

文章链接:https://arxiv.org/abs/2304.00325

6371e7926459ba7129d4617f07140040.png

a1207ca797bbaf8d140084341024a26f.png

1c7ec899a6115c728a5ddf046b4ddf57.png

f759133a0095c5a9241ad1f31214ffeb.png

摘要:

       无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。~定性结果表明我们的方法可以通过合并具有相似语义的潜在表示有效地减少冗余,从而增加下游任务的显着信息的比例。~从数量上讲,我们的方法提高了 ViT 和 MViT 的性能,同时需要显着减少 Kinetics 和 Something 的计算-Something-V2 基准。~更具体地说,通过我们的 SPM,我们将 MAE 预训练的 ViT-B 和 ViT-L 的准确性分别提高了 1.5%,GFLOP 减少了 33%,FLOP 减少了 55%,分别提高了 0.2% Kinectics-400 基准测试,并将 MViTv2-B 的精度提高 0.2% 和 0.3%,同时在 Kinectics-400 和 Something-Something-V2 上分别减少 22% 的 GFLOP。

目录
相关文章
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
112 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
106 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
95 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
155 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
103 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
115 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
62 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
128 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
126 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
91 0