GAN「一生万物」, ETH、谷歌用单个序列玩转神经动作合成,入选SIGGRAPH

简介: GAN「一生万物」, ETH、谷歌用单个序列玩转神经动作合成,入选SIGGRAPH
酷炫的神经动作合成技术,单个序列就能完成。

生成逼真且多样化的人体动作是计算机图形学的长期目标。对于动作建模和合成来说,研究者通常使用概率模型来捕获有限的局部变化或利用动作捕捉(mocap)获得的大型动作数据集。在阶段设置(stage-setting)和后期处理(例如,涉及手动数据清理)中,使用动作捕捉系统捕获数据的成本很高,并且动作数据集通常是有限制的,即它们缺乏所需的骨骼结构、身体比例或样式。利用动作数据集通常需要复杂的处理,例如重新定位,这可能会在原始捕获的动作中引入错误。

近日,来自苏黎世联邦理工学院、谷歌、芝加哥大学等机构的研究者开发了一个框架 GANimator,该框架能够产生不同且逼真的动作,只使用一个单一的训练序列。这一框架大大简化了数据收集过程,同时允许创建逼真的动作变化,还可以准确地捕捉单独动作序列细节。该研究入选 SIGGRAPH 2022。


我们先来看如下效果图,左边输入的是单个动作序列,右边是生成结果:

GANimator 框架也可以处理动物类的输入:


群体动画。GANimator 框架训练了一个单一的螃蟹舞蹈序列,可以生成各种新颖的运动:

GANimator 框架也可以混合不同的序列,生成一个动作序列:

上述示例说明 GANimator 框架是生成新动作的有效工具,它可以仅使用短动作序列作为输入来合成较长、多样和高质量的动作序列。

方法概览

研究者提出的生成模型可以从单个动作序列中学习,采用的方法受到了图像领域最近使用渐进式生成的工作以及在单个示例上训练深度网络的工作的启发。接下来详细介绍分层框架、动作表征和训练流程的主要构建块。

动作表征

研究者通过一个𝑇姿势的时序集来表征动作序列,该时序集由足部关节位移 O ϵ R^𝑇×3 和关节旋转 R ϵ R^𝑇×𝐽𝑄组成,其中𝐽表示关节数,𝑄表示旋转特征数。

为了减少常见的足部滑动伪影,研究者在表征中加入了足部接触标签。并且,为了简化注释,他们还将连接特征的度量空间表示成了 M_𝑇 ≡ R^𝑇×(𝐽 𝑄+𝐶+3)。

渐进式动作生成架构

研究者提出的动作生成框架如下图 2 所示。该框架由𝑆个粗放到精细(coarse-to-fine)对抗生成网络组成,每个负责生成具有特定帧数 {𝑇_𝑖 }^𝑆_𝑖=1 的动作序列。

第一层负责纯生成,也即𝐺_1 将随机噪声𝑧_1 ϵ M_𝑇_1 映射为粗放动作序列,如下公式(1)所示。

然后,更精细层𝐺_𝑖 (2 ≤ 𝑖 ≤ 𝑆) 中的生成器通过如下公式(2)渐进式地采样 Q_1。

重复上述过程,直到最精细输出序列 Q_𝑆 ϵ M_𝑇_𝑆通过𝐺_𝑆生成。

网络构建块

首先是生成器。研究者采用的生成器𝐺_𝑖包含一个全卷积神经网络𝑔_𝑖 (·),该网络由具有一些骨骼感知卷积层和其后的非线性层。由于该网络的主要作用是添加缺失的高频细节,因此他们使用残差结构,因此对于 2 ≤ 𝑖 ≤ 𝑆,得到如下公式(4)。

下图为 3 则为生成器架构概览。

其次是鉴别器。虽然经典 GAN 架构中的鉴别器输出单个标量,指示输入被分类为「真」或「假」。但对于训练数据中单个序列的情况,这种结构会导致模式崩溃,原因是生成器通常过拟合序列。

最后是骨骼感知算子。研究者采用骨骼感知卷积作为框架基础构建块。骨骼感知算子需要一个由一组关节(顶点)和临接表(边)定义的固定骨骼拓扑。由于网络在单个序列上运行,他们调整该拓扑以匹配输入序列。这允许在任何骨骼拓扑上操作,并且不需要将输入动作重新定位到特定的骨骼结构。

损失函数

对抗性损失。研究者使用 WGAN-GP 损失来训练层𝑖,如下公式(5)所示。

重建损失。为了确保网络生成涵盖所有不同时序 patch 的变化,并且生成特定动作子集时不会崩溃,研究者要求网络从一组预定义的噪声信号 {𝑧^∗_𝑖 }^𝑆_𝑖=1 中重建输入动作。为了鼓励系统这样做,他们重新定义了重建损失,如下公式(6)所示。

接触一致性损失。由于准确的足部接触是保证动作质量的主要因素之一,研究者在框架中预测足部接触标签并使用 IK 后处理来确保接触。由于关节接触标签 L 被集成到动作表征 M 中,骨骼感知网络可以直接在 M 上操作并学习将接触标签预测为动作的一部分。

研究者注意到,接触标签的隐式学习可以导致激活和非激活接触标签转换过程中产生伪影。因此,他们提出了一种新的损失来鼓励接触标签和足部速度之间的一致性。具体地,研究者要求在每一帧中通过如下公式(7)最小化接触标签或足部速度。

训练

用于训练的完整损失如下公式(8)所示。

为了提升结果的稳健性和质量,研究者将每两个连续层组合成一个块并逐块地训练框架。

实验结果

下图 4 展示了动作序列外推能力,并与 acRNN 和经典统计模型 MotionTexture 进行了比较:可以看出,GANimator 产生了全局结构变化,姿态和过渡看起来很自然。

下表 1 为 GANimator 与 MotionTexture 和 acRNN 定量比较结果。可以看出,acRNN 由于收敛于静态位姿,覆盖范围有限,而 GANimator 生成的动作很好地覆盖了训练序列。此外,GANimator 模型在生成可信动作和保持多样性之间取得了良好的平衡。

下图展示了该模型使用两个序列进行训练。第一个序列(左)包含相对静态动作,第二个序列(右)包含较大的动作。该研究在相应的序列中可视化生成的结果(蓝色)及其修补后的最近邻(绿色)的骨骼动画。可以看出,生成的结果包含来自两个训练序列的内容(参见上述生成大象的动图)。

下图展示了该研究生成结果与输入内容相同,同时生成结果更逼真,例如人走路时手肘位置较高。

相关文章
|
5月前
|
机器学习/深度学习 图形学 计算机视觉
ECCV 2024:南洋理工三维数字人生成新范式:结构扩散模型
【9月更文挑战第6天】南洋理工大学团队提出了一种名为StructLDM的新型三维数字人生成方法,旨在克服现有技术在图像合成质量、细节捕捉及人体结构建模等方面的不足。该方法通过结构化潜在空间、结构化3D感知解码器及结构化潜在扩散模型三项关键技术,实现了高质量的三维数字人生成与编辑,并在多个数据集上展示了卓越的性能和多样性。未来研究将进一步提升模型的鲁棒性和泛化能力。论文预计在ECCV 2024上展示。论文地址:https://arxiv.org/pdf/2404.01241。
66 1
|
5月前
|
算法 知识图谱
ACL 2024 Oral:我们离真正的多模态思维链推理还有多远?
【9月更文挑战第5天】近年来,多模态思维链推理(MCoT)受到广泛关注,但现有基准仍面临诸多挑战。为此,研究人员提出了M$^3$CoT基准,旨在推动多领域、多步骤、多模态的推理能力发展。M$^3$CoT涵盖科学、数学等多个领域,要求模型进行多步骤推理,并结合文本和视觉信息。尽管当前视觉大语言模型(VLLMs)在M$^3$CoT上的表现不佳,但该基准为MCoT的发展提供了新机遇,未来可从模型改进、数据增强及知识融合等方面进行探索。论文详情见:https://arxiv.org/abs/2405.16473。
78 1
|
6月前
|
机器学习/深度学习 自然语言处理
准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊
【8月更文挑战第29天】浙江大学团队在《Nature》子刊上发表的论文介绍了一款名为EditRetro的基于Transformer架构的化学逆合成预测模型,其准确率高达60.8%,为化学合成领域带来了革命性的变化。此模型无需依赖传统化学反应模板,具备更强的泛化能力和多样化合成路线生成能力,在药物研发和材料科学领域展现出巨大潜力,尽管仍存在一定的错误率和计算资源需求高等挑战。论文详情见:https://www.nature.com/articles/s41467-024-50617-1。
101 3
|
6月前
|
算法
ECCV 2024:盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出
【8月更文挑战第15天】随着多媒体的兴起,视频成为信息传播的关键媒介,但视频中的闪烁问题影响观看体验。美图与中国科学院大学联合研发的BlazeBVD算法,采用直方图辅助方法简化学习过程,提高了视频去闪烁的质量与速度。该算法通过2D网络恢复纹理,3D网络修正时间一致性,实现了高效能与高保真度。实验结果显示,BlazeBVD在多种视频类型上表现优秀,推理速度提升显著。尽管如此,算法在处理局部闪烁和复杂场景时仍存在局限性,未来有进一步优化的空间。[论文链接](https://arxiv.org/pdf/2403.06243v1)
99 1
|
8月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
165 5
|
8月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
264 7
|
9月前
|
机器学习/深度学习 自然语言处理 图形学
CVPR 2024:文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
【5月更文挑战第12天】CVPR 2024将展出阿尔伯塔大学的MoMask框架,该框架创新性地将文本转化为3D数字人骨骼动画,推动计算机图形学和动画制作的发展。MoMask结合NLP和计算机视觉,由文本编码器解析输入文本,动作生成器则将其转化为骨骼动画。该技术提升动画制作效率,降低门槛,但面临训练数据需求大和生成动画可能有偏差的挑战。[论文链接](https://arxiv.org/abs/2312.00063)
163 2
|
机器学习/深度学习 编解码 人工智能
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
240 0
|
机器学习/深度学习 量子技术 计算机视觉
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
239 0
|
机器学习/深度学习 人工智能 算法
史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
225 0

热门文章

最新文章