阿里等发布基于3D的人物图片转视频模型Champ

简介: 【4月更文挑战第21天】阿里联合南京大学、复旦大学发布创新模型Champ,实现3D人物图片转视频的突破。Champ运用SMPL模型与潜在扩散框架,提升形状对齐和运动引导能力,生成高质量人物动画,尤其擅长捕捉姿势和形状变化。模型通过细节处理增强面部表情和手指动作等细节,但面部和手部建模仍有提升空间。研究团队已进行效率优化,推动实际应用。[项目地址](https://fudan-generative-vision.github.io/champ/#/) | [论文地址](https://arxiv.org/abs/2403.14781)

在人工智能领域,图像动画技术一直是研究的热点之一。近期,由南京大学、复旦大学以及阿里巴巴集团共同研发的Champ模型,为人物图片转视频领域带来了新的突破。Champ模型利用3D人体参数化模型和潜在扩散框架,提高了现有人物生成技术的形状对齐和运动引导能力,这一成果在学术界和工业界都引起了广泛关注。

Champ模型的核心在于其对SMPL模型的创新性应用。SMPL模型是一种广泛认可的3D人体参数化模型,能够有效捕捉人体的形状和姿态。Champ模型通过将SMPL模型与潜在扩散模型相结合,不仅提升了动画生成的质量,还增强了对人物动作和形态变化的精确捕捉。在实验评估中,Champ模型展现出了生成高质量人物动画的卓越能力,尤其是在捕捉姿势和形状变化方面。

Champ模型的另一个亮点是其对细节的处理。通过整合渲染的深度图像、法线图和语义图,Champ模型能够丰富潜在扩散模型的条件,从而在空间域中融合形状和运动的潜在表示。这种多层次的运动融合模块,结合了自注意力机制,使得模型在生成动画时能够更加精细地处理人物的面部表情和手指动作等细节。

尽管Champ模型在人物图像动画方面取得了显著成果,但仍有一些挑战和局限性需要克服。首先,模型对于面部和手部的建模能力仍有待提高,这部分的引导效果与基于特征的方法相比尚有差距。为此,研究团队引入了DWpose作为面部和手部建模的额外约束,以增强这些区域的动画效果。其次,尽管自注意力机制在突出面部和手部的显著性方面发挥了作用,但由于SMPL模型和DWpose是独立解决的,两者之间可能存在一致性上的潜在差异。虽然这种差异在实验中并未明显表现出来,但它仍然是一个值得关注的问题。

此外,Champ模型在效率方面也进行了一定的优化。研究团队对模型的不同步骤进行了效率分析,包括参数化形状转移、每帧的渲染和推理所需的GPU内存和时间。这些优化措施有助于模型在实际应用中的部署和使用。

项目地址:https://fudan-generative-vision.github.io/champ/#/
论文地址:https://arxiv.org/abs/2403.14781

目录
相关文章
|
云安全 人工智能 安全
重磅发布,阿里云安全大模型正式投入使用
2023年云栖大会,阿里云安全正式宣布基于通义千问大模型训练的安全大模型投入使用。首期开放的功能包括为用户提供定制化的安全告警解读、事件调查及处置建议服务,覆盖全网超过99%的告警事件类型。即日起,用户可在阿里云安全中心免费使用体验。
1570 4
重磅发布,阿里云安全大模型正式投入使用
|
8月前
|
物联网 机器人 Swift
|
人工智能 自然语言处理 安全
国内首发,阿里云魔搭社区上架百川智能Baichuan 2系列模型
国内首发,阿里云魔搭社区上架百川智能Baichuan 2系列模型
1080 0
|
2月前
|
机器学习/深度学习 API
重磅!阿里云百炼上线Qwen百万长文本模型
重磅!阿里云百炼上线Qwen百万长文本模型
92 11
|
5月前
|
人工智能 自然语言处理 API
阿里云百炼平台上线首个最新文生图模型FLUX中文优化版
由Stable Diffusion团队推出的开源文生图模型FLUX风靡全球,其生成质量媲美Midjourney,被誉为“开源王者”。阿里云百炼平台首发FLUX中文优化版,提升了中文指令的理解与执行能力。开发者可直接在平台上体验并调用FLUX模型,且享有1000张图像的免费生成额度,有效期180天。无需额外部署,即可轻松利用这一先进模型创造高质量图像。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【热门开源项目】阿里开源巨擘:Qwen-2 72B深度解析与推荐
在人工智能的浪潮中,开源模型如同璀璨的星辰,指引着开发者们探索未知的领域。而今天,我们将聚焦在阿里云推出的开源模型Qwen-2 72B上,从其项目介绍、技术特点、代码解析等多个角度,深入解析并推荐这一卓越的开源项目。
214 1
|
8月前
|
人工智能 运维 安全
首个民航机场大模型应用上线!
首个民航机场大模型应用上线!
133 2
|
消息中间件 自然语言处理 Cloud Native
基于大语言模型的 AIGC学习助手,重磅上线云原生消息社区!
你是否不知道怎么开始上手学习RocketMQ 5.0?不清楚从哪里找示例代码?是不是也经常找不到原理文档?
|
人工智能 自然语言处理 达摩院
社区供稿 | 达摩院自研开放域文本理解大模型登陆魔搭社区
SeqGPT是一个不限领域的文本理解大模型。无需训练,即可完成实体识别、文本分类、阅读理解等多种任务。该模型基于Bloomz在数以百计的任务数据上进行指令微调获得。模型可以在低至16G显存的显卡上免费使用。目前SeqGPT已经在魔搭社区开源,欢迎体验!
社区供稿 | 达摩院自研开放域文本理解大模型登陆魔搭社区
|
机器学习/深度学习 人工智能 自然语言处理
重大喜讯!通义听悟的发布成为国内首个开放公测的大模型应用产品!
近年来,随着人工智能技术的快速发展,自然语言处理成为了研究的热点。而在自然语言处理领域,ChatGPT是一个备受关注的模型,它的出现极大地推动了自然语言处理技术的发展。然而,最近阿里云宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品。在公测期间,用户可领取100小时以上听悟免费转写时长,这个重大喜讯引起了开发技术领域的广泛关注。
394 1
重大喜讯!通义听悟的发布成为国内首个开放公测的大模型应用产品!