阿里等发布基于3D的人物图片转视频模型Champ

简介: 【4月更文挑战第21天】阿里联合南京大学、复旦大学发布创新模型Champ,实现3D人物图片转视频的突破。Champ运用SMPL模型与潜在扩散框架,提升形状对齐和运动引导能力,生成高质量人物动画,尤其擅长捕捉姿势和形状变化。模型通过细节处理增强面部表情和手指动作等细节,但面部和手部建模仍有提升空间。研究团队已进行效率优化,推动实际应用。[项目地址](https://fudan-generative-vision.github.io/champ/#/) | [论文地址](https://arxiv.org/abs/2403.14781)

在人工智能领域,图像动画技术一直是研究的热点之一。近期,由南京大学、复旦大学以及阿里巴巴集团共同研发的Champ模型,为人物图片转视频领域带来了新的突破。Champ模型利用3D人体参数化模型和潜在扩散框架,提高了现有人物生成技术的形状对齐和运动引导能力,这一成果在学术界和工业界都引起了广泛关注。

Champ模型的核心在于其对SMPL模型的创新性应用。SMPL模型是一种广泛认可的3D人体参数化模型,能够有效捕捉人体的形状和姿态。Champ模型通过将SMPL模型与潜在扩散模型相结合,不仅提升了动画生成的质量,还增强了对人物动作和形态变化的精确捕捉。在实验评估中,Champ模型展现出了生成高质量人物动画的卓越能力,尤其是在捕捉姿势和形状变化方面。

Champ模型的另一个亮点是其对细节的处理。通过整合渲染的深度图像、法线图和语义图,Champ模型能够丰富潜在扩散模型的条件,从而在空间域中融合形状和运动的潜在表示。这种多层次的运动融合模块,结合了自注意力机制,使得模型在生成动画时能够更加精细地处理人物的面部表情和手指动作等细节。

尽管Champ模型在人物图像动画方面取得了显著成果,但仍有一些挑战和局限性需要克服。首先,模型对于面部和手部的建模能力仍有待提高,这部分的引导效果与基于特征的方法相比尚有差距。为此,研究团队引入了DWpose作为面部和手部建模的额外约束,以增强这些区域的动画效果。其次,尽管自注意力机制在突出面部和手部的显著性方面发挥了作用,但由于SMPL模型和DWpose是独立解决的,两者之间可能存在一致性上的潜在差异。虽然这种差异在实验中并未明显表现出来,但它仍然是一个值得关注的问题。

此外,Champ模型在效率方面也进行了一定的优化。研究团队对模型的不同步骤进行了效率分析,包括参数化形状转移、每帧的渲染和推理所需的GPU内存和时间。这些优化措施有助于模型在实际应用中的部署和使用。

项目地址:https://fudan-generative-vision.github.io/champ/#/
论文地址:https://arxiv.org/abs/2403.14781

目录
相关文章
|
3月前
|
数据可视化 物联网 Swift
谷歌发布开源LLM Gemma,魔搭社区评测+最佳实践教程来啦!
Gemma是由Google推出的一系列轻量级、先进的开源模型,他们是基于 Google Gemini 模型的研究和技术而构建。
|
6月前
|
云安全 人工智能 安全
重磅发布,阿里云安全大模型正式投入使用
2023年云栖大会,阿里云安全正式宣布基于通义千问大模型训练的安全大模型投入使用。首期开放的功能包括为用户提供定制化的安全告警解读、事件调查及处置建议服务,覆盖全网超过99%的告警事件类型。即日起,用户可在阿里云安全中心免费使用体验。
945 4
重磅发布,阿里云安全大模型正式投入使用
|
1月前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型,魔搭社区最佳实践来了
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。
|
4月前
|
自然语言处理 算法 Swift
浪潮信息开源 源2.0 基础大模型,魔搭社区最佳实践教程来啦!
浪潮信息发布源2.0基础大模型,参数量包括1026亿、518亿、21亿三个大模型,从源2.0的论文上可以看到,源2.0不仅在数理逻辑、数学计算、代码生成能力上,再次超强进化,还在算法、数据、算力方面,提出了三项创新。
|
10月前
|
消息中间件 自然语言处理 Cloud Native
基于大语言模型的 AIGC学习助手,重磅上线云原生消息社区!
你是否不知道怎么开始上手学习RocketMQ 5.0?不清楚从哪里找示例代码?是不是也经常找不到原理文档?
|
7月前
|
人工智能 文字识别 开发者
CogVLM智谱AI 新一代多模态大模型发布,魔搭社区最佳实践体验!
继 5 月 18 日推出 VisualGLM-6B 后,智谱AI&清华KEG 潜心打磨,于近日发布并直接开源了更强大的多模态大模型——CogVLM-17B。模型已第一时间发布在魔搭社区,可体验!
|
7月前
|
人工智能 Cloud Native 数据安全/隐私保护
《开发者评测》之 ACK 云原生 AI 套件评测获奖名单
ACK 云原生 AI 套件评测活动最优奖、潜力奖、争优奖获奖名单正式公布!
233 0
|
8月前
|
机器学习/深度学习 算法 测试技术
蚂蚁集团开源代码大模型CodeFuse!(含魔搭体验和最佳实践)
蚂蚁集团在刚刚结束的2023外滩大会上开源了代码大模型CodeFuse,目前在魔搭社区可下载、体验。
|
9月前
|
机器学习/深度学习 传感器 数据采集
接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级
接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级
495 0
|
10月前
|
弹性计算 数据可视化 物联网
百川13B模型发布及魔搭最佳实践
百川13B模型发布及魔搭最佳实践