社区供稿 | 一张照片跳舞的AnimateAnyone社区开发者复刻版,开源!

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 日前,兵马俑跳科目三、奶牛猫跳洗澡舞等趣味和魔性的短视频在社交媒体上出圈,背后“一张照片来跳舞”的技术来自阿里通义实验室在可控动画生成领域的一项研究工作——AnimateAnyone。

引言

日前,兵马俑跳科目三、奶牛猫跳洗澡舞等趣味和魔性的短视频在社交媒体上出圈,背后“一张照片来跳舞”的技术来自阿里通义实验室在可控动画生成领域的一项研究工作——AnimateAnyone。

AnimateAnyone是一种能够将角色图像转换为所需姿势序列控制的动画视频的方法,继承了diffusion模型的网络设计和预训练权重,并修改了UNet以适应多帧输入。为了解决保持外观一致性的挑战,引入了referenceNet,专门设计为UNet结构来捕获参考图像的空间细节。

pose sequence使用pose guide进行编码,并与多帧噪声融合,然后由去噪UNet进行去噪处理来生成视频,去噪的UNet模块中计算block由空间attention,cross-attention,以及时间attention组成,如右侧的虚线框。首先通过ReferenceNet提取细节特征并用于空间注意力,再通过CLIP图像编码器提取语义特征用于cross-attention,时间attention在时间维度上运作。最后通过VAE解码器解码为视频片段。

论文地址:

https://arxiv.org/pdf/2311.17117.pdf

社区复现和使用方式

社区开发者使用SVD复刻了AnimateAnyone,基于SVD的pipeline,同时使用simswap提高面部质量和时间一致性,并发布了V1版本的推理代码和模型,模型checkpoint可以在魔搭社区下载。

开源代码:

https://github.com/bendanzzc/AnimateAnyone-reproduction

开源模型:

https://modelscope.cn/models/lightnessly/animate-anyone-v1/summary

1.下载AnimateAnyone-reproduction代码

# 使用modelscope官方镜像环境
git clone https://github.com/bendanzzc/AnimateAnyone-reproduction.git

2.下载相关模型

2.1  下载SVD/svd_14模型

git clone https://www.modelscope.cn/AI-ModelScope/stable-video-diffusion-img2vid-xt.git

2.2  下载AnimateAnyone复现相关模型

git clone https://www.modelscope.cn/lightnessly/animate-anyone-v1.git

3.替换相关文件

下载AnimateAnyone复现相关模型和SVD/svd_14模型后,将stable-video-diffusion-img2vid-xt/unet下的文件删除,替换为animate-anyone-v1/unet路径下的文件

4.替换推理代码相关参数

4.1 替换SVD为本地下载的模型路径


4.2  将controlnet的路径替换为AnimateAnyone复现相关模型下controlnet文件的路径,通常为animate-anyone-v1/controlnet


5.其他参数



6.执行推理

运行AnimateAnyone-reproduction代码中的run_inference_release.py

测试效果演示:

显存要求:

如果想体验原版AnimateAnyone,可下载通义千问app,输入“全民舞王” ,产品端提供了更丰富的预设舞蹈模板、更长时长的生成效果。

魔搭社区积极鼓励开发者参照相关论文进行实践复现,并乐于分享他们的checkpoint文件与源代码,以更有力地推动人工智能技术的持续发展与进步。

投稿邮箱:

modelscopesubmit@list.alibaba-inc.com

相关文章
|
机器学习/深度学习 人工智能 算法
阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能
【1月更文挑战第2天】在科技日新月异的时代,艺术创作的疆界正以前所未有的速度拓展,,从AI作曲和音乐生成技术带来的跨风格音乐作品,到基于人工智能的诗歌与文学创作,艺术不再仅仅是人类个体情感与才华的体现,而成为人机交互、数据智能与创新思维相互融合的新领域。 近日,阿里云再次引领创新潮流,推出一款令人叹为观止的AI黑科技——通义舞王
阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能
|
机器学习/深度学习 算法 Shell
【实操:人脸矫正】两次定位操作解决人脸矫正问题
【实操:人脸矫正】两次定位操作解决人脸矫正问题
490 0
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
987 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
3月前
|
人工智能 开发者
2025魔搭开发者大会!来了!
2025魔搭开发者大会!来了!
845 1
|
4月前
|
存储 人工智能 运维
当四大美女遇上 MetaGPT,一键解锁跨时空AI畅聊新体验
MetaGPT 是一个开源多智能体框架,通过角色专业化分工与流程标准化控制,突破传统单模型系统的能力瓶颈。本方案结合阿里云百炼模型服务和 Serverless AI 开发平台 Function AI,构建支持多角色、多场景的对话应用,并部署至函数计算。用户可快速获取 API-KEY、配置参数并部署项目,体验如“西游取经”、“成语接龙”等示例应用,实现高效协同推理与垂直领域专业内容动态更新,显著降低成本并提升开发效率。
|
自然语言处理 算法 云栖大会
通义万相发布视频生成模型,更懂中国风、中国话
通义万相发布视频生成模型,可一键创作影视级高清视频
1209 13
|
人工智能 Cloud Native Java
从云原生视角看 AI 原生应用架构的实践
本文核心观点: • 基于大模型的 AI 原生应用将越来越多,容器和微服务为代表的云原生技术将加速渗透传统业务。 • API 是 AI 原生应用的一等公民,并引入了更多流量,催生企业新的生命力和想象空间。 • AI 原生应用对网关的需求超越了传统的路由和负载均衡功能,承载了更大的 AI 工程化使命。 • AI Infra 的一致性架构至关重要,API 网关、消息队列、可观测是 AI Infra 的重要组成。
53054 108
|
9月前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
826 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
9月前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
535 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动

热门文章

最新文章