每日学术速递3.14

简介: Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.FlexiViT: One Model for All Patch Sizes(CVPR 2023)

5fa947b6acdfb87397b7827097cdee5b.png

标题:FlexiViT:适用于所有补丁大小的一种模型

作者:Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith,

文章链接:https://arxiv.org/abs/2212.08013

项目代码:https://github.com/google-research/big_vision

9657abe12eda9e1b6e34db0319756a67.png

95192136777f302069dd70f6ed3ff326.png

21a22a0bee6294fe4af9d6bb1e416be9.png

摘要:

       Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。我们广泛评估生成的模型,我们称之为 FlexiViT,用于广泛的任务,包括分类、图像文本检索、开放世界检测、全景分割和语义分割,得出的结论是它通常匹配,有时甚至优于标准ViT 模型在其他方面相同的设置中以单个补丁大小进行训练。因此,FlexiViT 训练是对 ViT 的一种简单的直接改进,可以轻松地将计算自适应功能添加到依赖 ViT 骨干架构的大多数模型中。

2.Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

00a32285ca0220054fc4c1e7568c2ceb.png

标题:Rodin:使用扩散雕刻 3D 数字化身的生成模型

作者:Tengfei Wang, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://github.com/jiaojiayuasd/dilateformer

e247dcd42ace3ee87bf8da416af4f5db.png

56a967a005211d6b12a30d0d64aedc31.png

e8abccd2a853f1d4e003bcb3d9f01542.png

摘要:

       本文介绍了一种 3D 生成模型,该模型使用扩散模型自动生成表示为神经辐射场的 3D 数字化身。生成此类化身的一个重大挑战是 3D 中的内存和处理成本过高,无法生成高质量化身所需的丰富细节。为了解决这个问题,我们提出了展开扩散网络 (Rodin),它将神经辐射场表示为多个 2D 特征图,并将这些图展开到单个 2D 特征平面中,我们在其中执行 3D 感知扩散。Rodin 模型带来了急需的计算效率,同时通过使用 3D 感知卷积来保持 3D 扩散的完整性,该卷积根据 3D 中的原始关系处理 2D 特征平面中的投影特征。我们还使用潜在条件来协调全局一致性的特征生成,从而产生高保真化身并启用基于文本提示的语义编辑。最后,我们使用分层综合来进一步增强细节。我们的模型生成的 3D 头像与现有生成技术生成的头像相比具有优势。我们可以生成具有逼真的发型和胡须等面部毛发的高度详细的化身。我们还演示了从图像或文本生成 3D 头像以及文本引导的可编辑性。

3.X-Avatar: Expressive Human Avatars(CVPR 2023)

1308566c105bc4ffe18754b27189d11e.png

标题:X-Avatar:富有表现力的人类化身

作者:Kaiyue Shen, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Julien Valentin, Jie Song, Otmar Hilliges

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://skype-line.github.io/projects/X-Avatar/

d658e5e7e840a31acb17d08013c2569b.png

4c00e0ebd6e9a625d92c3752cb7d2d4e.png

9c1b2e7ee2689e8b314b490261567bba.png

27cb13968ad6439d15f7c52e2815d5c3.png

摘要:

       我们展示了 X-Avatar,这是一种新颖的人身模型,它可以捕捉数字人类的全部表现力,从而在远程呈现、AR/VR 等领域带来栩栩如生的体验。我们的方法以整体方式对身体、手部、面部表情和外观进行建模,可以从全 3D 扫描或 RGB-D 数据中学习。为实现这一目标,我们提出了一个部分感知学习前向蒙皮模块,该模块可以由 SMPL-X 的参数空间驱动,允许 X-Avatars 的表现动画。为了有效地学习神经形状和变形场,我们提出了新颖的部分感知采样和初始化策略。这会导致更高的保真度结果,尤其是对于较小的身体部位,同时尽管关节骨骼数量增加,但仍能保持有效的训练。为了捕捉具有高频细节的化身外观,我们使用以姿势、面部表情、几何形状和变形表面的法线为条件的纹理网络扩展几何和变形场。我们通过实验表明,我们的方法在动画任务的数量和质量上都优于两个数据域中的强基线。为了促进未来对富有表现力的化身的研究,我们贡献了一个名为 X-Humans 的新数据集,其中包含来自 20 名参与者的 233 个高质量纹理扫描序列,总计 35,500 个数据帧。

目录
相关文章
|
应用服务中间件
使用ehcache持久化数据到磁盘 并且在应用服务器重启后不丢失数据
使用ehcache时如何持久化数据到磁盘,并且在应用服务器重启后不丢失数据1、如何持久化到磁盘使用cache.flush(),每次写入到cache后调用cache.flush() ,这样ehcache 会将索引(xxx.index)回写到磁盘。
3458 0
|
2月前
|
网络协议 安全
说一下 TCP 的三次握手四次挥手过程
我是小假 期待与你的下一次相遇 ~
278 1
|
2月前
|
人工智能 自然语言处理 自动驾驶
智能体来了:2026见证奇迹!AI元年核心爆发,你的数字分身已上线
内容摘要:2026年标志着AI从“对话框”跨入“全自动执行”的Agent时代。本文深度解析智能体(AI Agent)如何重塑生产力底层逻辑,拆解数字分身(Digital Twin)的核心技术路径,并提供普通人拥抱这一转型的实操建议,助你在AI元年抢占生存高地。
201 2
|
数据采集 数据挖掘 物联网
Pandas高级数据处理:实时数据处理
本文介绍了如何使用Pandas进行实时数据处理,涵盖从基础到高级的技巧。Pandas作为Python中流行的数据处理库,提供了高效的DataFrame和Series结构,适用于金融、社交媒体和物联网等领域的数据分析。文章详细讲解了数据读取、清洗、转换及常见问题的解决方案,如内存不足、数据不一致和性能瓶颈,并提供了避免常见报错的方法,帮助读者更高效地处理实时数据。
430 15
|
机器学习/深度学习 存储 传感器
《解锁深度Q网络新姿势:非马尔可夫环境难题》
深度Q网络(DQN)结合深度学习与Q学习,在Atari游戏等领域取得显著成绩,但在非马尔可夫环境中面临挑战。传统DQN基于马尔可夫决策过程(MDP),假设未来状态仅依赖当前状态和动作,忽视历史信息,导致在复杂环境中表现不佳。为此,研究人员提出了三种改进策略:1) 记忆增强型DQN,引入LSTM等记忆模块;2) 基于模型的强化学习结合,通过预测环境动态提升决策准确性;3) 多智能体协作与信息共享,利用多个智能体共同感知和决策。实验表明,这些改进有效提升了DQN在非马尔可夫环境中的性能,但计算复杂度和模型可解释性仍是未来研究的重点。
304 17
|
消息中间件 Java 网络安全
阿里RocketMQ安装服务器及客户端
阿里RocketMQ安装服务器及客户端
1106 0
虚拟机安装Linux系统的网络配置
该博客文章提供了解决虚拟机中Linux系统网络问题的多种方法,包括重置网络服务、修改网络配置文件、使用不同网络模式等,以确保虚拟机能够成功连接到网络。
虚拟机安装Linux系统的网络配置
|
Oracle 关系型数据库 数据库连接
初步了解Oracle DG
初步了解Oracle DG
854 0
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】 ParameterNet:DynamicConv(Dynamic Convolution):2024最新动态卷积
**摘要** ParameterNet是新提出的框架,旨在让低FLOPs模型也能受益于大规模视觉预训练,通过动态卷积在增加参数量的同时控制计算量。动态卷积利用条件生成的卷积核增强模型适应性。在ImageNet上,ParameterNet-600M在准确性上超过Swin Transformer,且FLOPs更低。该方法也被拓展至语言领域,提升LLaMA模型性能。代码可在<https://parameternet.github.io/>获取。
|
小程序 API
微信小程序如何利用createIntersectionObserver实现图片懒加载
微信小程序如何利用createIntersectionObserver实现图片懒加载

热门文章

最新文章