每日学术速递4.2

简介: 传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.DiffCollage: Parallel Generation of Large Content with Diffusion Models(CVPR 2023)


c06734d9dcca1e14556fe934f6fd056e.png


标题:DiffCollage:使用扩散模型并行生成大内容

作者:Qinsheng Zhang, Jiaming Song, Xun Huang, Yongxin Chen, Ming-Yu Liu

文章链接:https://arxiv.org/abs/2303.17076

项目代码:https://research.nvidia.com/labs/dir/diffcollage/

b994430c05818a8c491291e6b25b9431.png

5d361419548445420eac857994878755.png

5ddefdeeff7ce7d0d5a70c1471b05be1.png

8e32febe9b96f16fcf89f1f6a9a05dc4.png

摘要:

       我们提出了 DiffCollage,这是一种组合扩散模型,它可以通过利用在生成大内容片段上训练的扩散模型来生成大内容。我们的方法基于因子图表示,其中每个因子节点代表内容的一部分,变量节点代表它们的重叠。这种表示允许我们聚合来自在各个节点上定义的扩散模型的中间输出,以并行生成任意大小和形状的内容,而无需诉诸自回归生成过程。我们将 DiffCollage 应用于各种任务,包括无限图像生成、全景图像生成和长时间文本引导运动生成。与强自回归基线进行比较的大量实验结果验证了我们方法的有效性。

2.NeILF++: Inter-Reflectable Light Fields for Geometry and Material Estimation

ca49326fbc663c8c4d8dc3984e78c7b0.png

标题:NeILF++:用于几何和材料估计的相互反射光场

作者:Jiayu Jiao, Yu-Ming Tang, Kun-Yu Lin, Yipeng Gao, Jinhua Ma, YaoWei Wang, Wei-Shi Zheng

文章链接:https://arxiv.org/abs/2303.17147

项目代码:https://yoyo000.github.io/NeILF_pp/

4f1d1ac082e89cb3e802eefe46b8927f.png

cbc135e4889e0d39cf87c0bb8221082b.png

0b5c6d898394042eaabbc219e57c94c6.png

0494275cd0a1d3915a47d909fcff30cf.png

摘要:

       我们提出了一种新颖的可微分渲染框架,用于从多视图图像估计联合几何、材料和照明。与假设简化的环境地图或共置手电筒的先前方法相比,在这项工作中,我们将静态场景的照明制定为一个神经入射光场 (NeILF) 和一个出射神经辐射场 (NeRF)。所提出方法的关键见解是通过基于物理的渲染和表面之间的相互反射将入射光场和出射光场结合起来,从而可以从基于物理的图像观察中分离出场景几何、材料和照明。方式。所提出的入射光和相互反射框架可以很容易地应用于其他 NeRF 系统。我们表明,我们的方法不仅可以将出射辐射分解为入射光和表面材料,而且还可以作为表面细化模块,进一步改善神经表面的重建细节。我们在几个数据集上证明,所提出的方法能够在几何重建质量、材料估计精度和新视图渲染的保真度方面取得最先进的结果。

3.Streaming Video Model(CVPR 2023)

3688adf4b5423e1381d70737e86e4146.png

标题:流媒体视频模型

作者:Yucheng Zhao, Chong Luo, Chuanxin Tang, Dongdong Chen, Noel Codella, Zheng-Jun Zha

文章链接:https://arxiv.org/abs/2303.17228

项目代码:https://github.com/yuzhms/Streaming-Video-Model

a972cfa7d442d2a0c95d9eff1ffc27ac.png

725d299b2d024083d5458b6c8df0292d.png

摘要:

       传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。然后将帧特征输入到任务相关的时间解码器中,以获得基于序列的任务的时空特征。 S-ViT 的效率和功效通过基于序列的动作识别任务中最先进的准确性以及基于框架的 MOT 任务中优于传统架构的竞争优势得到证明。我们相信,流媒体视频模型的概念和 S-ViT 的实施是朝着统一的视频理解深度学习架构迈出的坚实一步。代码将在这个 https URL 上可用。

目录
相关文章
|
机器学习/深度学习 并行计算 PyTorch
机器学习环境配置
机器学习环境配置
525 1
机器学习环境配置
|
API Python Windows
python2.7 win32com 避坑指南
python2.7 win32com 避坑指南
1024 0
|
10月前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
465 3
|
NoSQL 网络协议 Linux
卡速售电商系统2.0搭建教程(详细图文版)
本文详细介绍了在Linux服务器上(推荐CentOS 7.x / Ubuntu 20.04)使用宝塔面板安装和配置卡速售的安装及配置过程,包括安装PHP 8.0及其扩展(fileinfo、redis、swoole4)、调整内存限制、配置二进制日志等。同时提供了安装系统程序的具体步骤,如添加站点、上传并解压文件、设置运行目录及伪静态规则,并通过进程守护管理器启动程序。最后附有故障排查指导,确保安装顺利进行。
395 5
|
TensorFlow 算法框架/工具 iOS开发
手把手教你-MAC虚拟环境搭建TensorFlow开发环境
手把手教你-MAC虚拟环境搭建TensorFlow开发环境
|
Devops Go 云计算
Go语言发展现状:历史、应用、优势与挑战
Go语言发展现状:历史、应用、优势与挑战
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
网络协议 网络架构
计算机网络:思科实验【5-IPv4地址——分类地址与划分子网】
计算机网络:思科实验【5-IPv4地址——分类地址与划分子网】
|
SQL JSON 算法
Mysql_3 ER 和 EER 模型
学习于:b站 骆昊 jackfrued 老师的网课+黑马网课
974 0
Mysql_3 ER 和 EER 模型
|
机器学习/深度学习 运维 自然语言处理
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(1)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
954 1