CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.FlexiViT: One Model for All Patch Sizes(CVPR 2023)
标题:FlexiViT:适用于所有补丁大小的一种模型
作者:Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith,
文章链接:https://arxiv.org/abs/2212.08013
项目代码:https://github.com/google-research/big_vision
摘要:
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。我们广泛评估生成的模型,我们称之为 FlexiViT,用于广泛的任务,包括分类、图像文本检索、开放世界检测、全景分割和语义分割,得出的结论是它通常匹配,有时甚至优于标准ViT 模型在其他方面相同的设置中以单个补丁大小进行训练。因此,FlexiViT 训练是对 ViT 的一种简单的直接改进,可以轻松地将计算自适应功能添加到依赖 ViT 骨干架构的大多数模型中。
2.Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion
标题:Rodin:使用扩散雕刻 3D 数字化身的生成模型
作者:Tengfei Wang, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao
文章链接:https://arxiv.org/abs/2302.01791v1
项目代码:https://github.com/jiaojiayuasd/dilateformer
摘要:
本文介绍了一种 3D 生成模型,该模型使用扩散模型自动生成表示为神经辐射场的 3D 数字化身。生成此类化身的一个重大挑战是 3D 中的内存和处理成本过高,无法生成高质量化身所需的丰富细节。为了解决这个问题,我们提出了展开扩散网络 (Rodin),它将神经辐射场表示为多个 2D 特征图,并将这些图展开到单个 2D 特征平面中,我们在其中执行 3D 感知扩散。Rodin 模型带来了急需的计算效率,同时通过使用 3D 感知卷积来保持 3D 扩散的完整性,该卷积根据 3D 中的原始关系处理 2D 特征平面中的投影特征。我们还使用潜在条件来协调全局一致性的特征生成,从而产生高保真化身并启用基于文本提示的语义编辑。最后,我们使用分层综合来进一步增强细节。我们的模型生成的 3D 头像与现有生成技术生成的头像相比具有优势。我们可以生成具有逼真的发型和胡须等面部毛发的高度详细的化身。我们还演示了从图像或文本生成 3D 头像以及文本引导的可编辑性。
3.X-Avatar: Expressive Human Avatars(CVPR 2023)
标题:X-Avatar:富有表现力的人类化身
作者:Kaiyue Shen, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Julien Valentin, Jie Song, Otmar Hilliges
文章链接:https://arxiv.org/abs/2302.01660v2
项目代码:https://skype-line.github.io/projects/X-Avatar/
摘要:
我们展示了 X-Avatar,这是一种新颖的人身模型,它可以捕捉数字人类的全部表现力,从而在远程呈现、AR/VR 等领域带来栩栩如生的体验。我们的方法以整体方式对身体、手部、面部表情和外观进行建模,可以从全 3D 扫描或 RGB-D 数据中学习。为实现这一目标,我们提出了一个部分感知学习前向蒙皮模块,该模块可以由 SMPL-X 的参数空间驱动,允许 X-Avatars 的表现动画。为了有效地学习神经形状和变形场,我们提出了新颖的部分感知采样和初始化策略。这会导致更高的保真度结果,尤其是对于较小的身体部位,同时尽管关节骨骼数量增加,但仍能保持有效的训练。为了捕捉具有高频细节的化身外观,我们使用以姿势、面部表情、几何形状和变形表面的法线为条件的纹理网络扩展几何和变形场。我们通过实验表明,我们的方法在动画任务的数量和质量上都优于两个数据域中的强基线。为了促进未来对富有表现力的化身的研究,我们贡献了一个名为 X-Humans 的新数据集,其中包含来自 20 名参与者的 233 个高质量纹理扫描序列,总计 35,500 个数据帧。