阿里等发布基于3D的人物图片转视频模型Champ

简介: 【4月更文挑战第21天】阿里联合南京大学、复旦大学发布创新模型Champ,实现3D人物图片转视频的突破。Champ运用SMPL模型与潜在扩散框架,提升形状对齐和运动引导能力,生成高质量人物动画,尤其擅长捕捉姿势和形状变化。模型通过细节处理增强面部表情和手指动作等细节,但面部和手部建模仍有提升空间。研究团队已进行效率优化,推动实际应用。[项目地址](https://fudan-generative-vision.github.io/champ/#/) | [论文地址](https://arxiv.org/abs/2403.14781)

在人工智能领域,图像动画技术一直是研究的热点之一。近期,由南京大学、复旦大学以及阿里巴巴集团共同研发的Champ模型,为人物图片转视频领域带来了新的突破。Champ模型利用3D人体参数化模型和潜在扩散框架,提高了现有人物生成技术的形状对齐和运动引导能力,这一成果在学术界和工业界都引起了广泛关注。

Champ模型的核心在于其对SMPL模型的创新性应用。SMPL模型是一种广泛认可的3D人体参数化模型,能够有效捕捉人体的形状和姿态。Champ模型通过将SMPL模型与潜在扩散模型相结合,不仅提升了动画生成的质量,还增强了对人物动作和形态变化的精确捕捉。在实验评估中,Champ模型展现出了生成高质量人物动画的卓越能力,尤其是在捕捉姿势和形状变化方面。

Champ模型的另一个亮点是其对细节的处理。通过整合渲染的深度图像、法线图和语义图,Champ模型能够丰富潜在扩散模型的条件,从而在空间域中融合形状和运动的潜在表示。这种多层次的运动融合模块,结合了自注意力机制,使得模型在生成动画时能够更加精细地处理人物的面部表情和手指动作等细节。

尽管Champ模型在人物图像动画方面取得了显著成果,但仍有一些挑战和局限性需要克服。首先,模型对于面部和手部的建模能力仍有待提高,这部分的引导效果与基于特征的方法相比尚有差距。为此,研究团队引入了DWpose作为面部和手部建模的额外约束,以增强这些区域的动画效果。其次,尽管自注意力机制在突出面部和手部的显著性方面发挥了作用,但由于SMPL模型和DWpose是独立解决的,两者之间可能存在一致性上的潜在差异。虽然这种差异在实验中并未明显表现出来,但它仍然是一个值得关注的问题。

此外,Champ模型在效率方面也进行了一定的优化。研究团队对模型的不同步骤进行了效率分析,包括参数化形状转移、每帧的渲染和推理所需的GPU内存和时间。这些优化措施有助于模型在实际应用中的部署和使用。

项目地址:https://fudan-generative-vision.github.io/champ/#/
论文地址:https://arxiv.org/abs/2403.14781

目录
相关文章
|
9月前
|
人工智能 运维 安全
首个民航机场大模型应用上线!
首个民航机场大模型应用上线!
149 2
|
弹性计算 数据可视化 物联网
百川13B模型发布及魔搭最佳实践
百川13B模型发布及魔搭最佳实践
|
云安全 人工智能 安全
重磅发布,阿里云安全大模型正式投入使用
2023年云栖大会,阿里云安全正式宣布基于通义千问大模型训练的安全大模型投入使用。首期开放的功能包括为用户提供定制化的安全告警解读、事件调查及处置建议服务,覆盖全网超过99%的告警事件类型。即日起,用户可在阿里云安全中心免费使用体验。
1621 4
重磅发布,阿里云安全大模型正式投入使用
|
云栖大会
2022云栖大会 | ModelScope模型社区分论坛即将重磅发布(11月3日)
2022云栖大会 | ModelScope模型社区分论坛即将重磅发布(11月3日)
504 0
2022云栖大会 | ModelScope模型社区分论坛即将重磅发布(11月3日)
|
机器学习/深度学习 算法 测试技术
蚂蚁集团开源代码大模型CodeFuse!(含魔搭体验和最佳实践)
蚂蚁集团在刚刚结束的2023外滩大会上开源了代码大模型CodeFuse,目前在魔搭社区可下载、体验。
|
机器学习/深度学习 算法 语音技术
重磅公开!阿里语音识别模型端核心技术,让你“听”见未来
阿里妹导读:语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用IoT设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。
2536 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【热门开源项目】阿里开源巨擘:Qwen-2 72B深度解析与推荐
在人工智能的浪潮中,开源模型如同璀璨的星辰,指引着开发者们探索未知的领域。而今天,我们将聚焦在阿里云推出的开源模型Qwen-2 72B上,从其项目介绍、技术特点、代码解析等多个角度,深入解析并推荐这一卓越的开源项目。
279 1
|
9月前
|
自然语言处理 算法 Swift
浪潮信息开源 源2.0 基础大模型,魔搭社区最佳实践教程来啦!
浪潮信息发布源2.0基础大模型,参数量包括1026亿、518亿、21亿三个大模型,从源2.0的论文上可以看到,源2.0不仅在数理逻辑、数学计算、代码生成能力上,再次超强进化,还在算法、数据、算力方面,提出了三项创新。
|
9月前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型,魔搭社区最佳实践来了
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。

热门文章

最新文章