社区供稿 | 一张照片跳舞的AnimateAnyone社区开发者复刻版,开源!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 日前,兵马俑跳科目三、奶牛猫跳洗澡舞等趣味和魔性的短视频在社交媒体上出圈,背后“一张照片来跳舞”的技术来自阿里通义实验室在可控动画生成领域的一项研究工作——AnimateAnyone。

引言

日前,兵马俑跳科目三、奶牛猫跳洗澡舞等趣味和魔性的短视频在社交媒体上出圈,背后“一张照片来跳舞”的技术来自阿里通义实验室在可控动画生成领域的一项研究工作——AnimateAnyone。

AnimateAnyone是一种能够将角色图像转换为所需姿势序列控制的动画视频的方法,继承了diffusion模型的网络设计和预训练权重,并修改了UNet以适应多帧输入。为了解决保持外观一致性的挑战,引入了referenceNet,专门设计为UNet结构来捕获参考图像的空间细节。

pose sequence使用pose guide进行编码,并与多帧噪声融合,然后由去噪UNet进行去噪处理来生成视频,去噪的UNet模块中计算block由空间attention,cross-attention,以及时间attention组成,如右侧的虚线框。首先通过ReferenceNet提取细节特征并用于空间注意力,再通过CLIP图像编码器提取语义特征用于cross-attention,时间attention在时间维度上运作。最后通过VAE解码器解码为视频片段。

论文地址:

https://arxiv.org/pdf/2311.17117.pdf

社区复现和使用方式

社区开发者使用SVD复刻了AnimateAnyone,基于SVD的pipeline,同时使用simswap提高面部质量和时间一致性,并发布了V1版本的推理代码和模型,模型checkpoint可以在魔搭社区下载。

开源代码:

https://github.com/bendanzzc/AnimateAnyone-reproduction

开源模型:

https://modelscope.cn/models/lightnessly/animate-anyone-v1/summary

1.下载AnimateAnyone-reproduction代码

# 使用modelscope官方镜像环境
git clone https://github.com/bendanzzc/AnimateAnyone-reproduction.git

2.下载相关模型

2.1  下载SVD/svd_14模型

git clone https://www.modelscope.cn/AI-ModelScope/stable-video-diffusion-img2vid-xt.git

2.2  下载AnimateAnyone复现相关模型

git clone https://www.modelscope.cn/lightnessly/animate-anyone-v1.git

3.替换相关文件

下载AnimateAnyone复现相关模型和SVD/svd_14模型后,将stable-video-diffusion-img2vid-xt/unet下的文件删除,替换为animate-anyone-v1/unet路径下的文件

4.替换推理代码相关参数

4.1 替换SVD为本地下载的模型路径


4.2  将controlnet的路径替换为AnimateAnyone复现相关模型下controlnet文件的路径,通常为animate-anyone-v1/controlnet


5.其他参数



6.执行推理

运行AnimateAnyone-reproduction代码中的run_inference_release.py

测试效果演示:

显存要求:

如果想体验原版AnimateAnyone,可下载通义千问app,输入“全民舞王” ,产品端提供了更丰富的预设舞蹈模板、更长时长的生成效果。

魔搭社区积极鼓励开发者参照相关论文进行实践复现,并乐于分享他们的checkpoint文件与源代码,以更有力地推动人工智能技术的持续发展与进步。

投稿邮箱:

modelscopesubmit@list.alibaba-inc.com

目录
打赏
0
0
0
0
690
分享
相关文章
社区供稿 | 魔搭Agent创意挑战赛作品体验感受
近期在闲逛知乎时看到魔搭发起了一个Agent创新应用比赛,看了下奖金还挺高的呀( •̀ ω •́ )y
社区供稿 | 创作《哈利波特与异界魔书》的过程和心得
可图Kolors-LoRA风格故事挑战赛一等奖作品,以下是团队创作过程的详细回顾
一看就会的 AI 换脸项目教程!5分钟速通明星大模型开源项目一键部署
有了通义灵码的帮助,很多明星大模型项目实操过程中遇到的问题:查找错误、解释代码、优化代码、查找文档、代码补全等等都可以用通义灵码一键解决,而且准确率很高,加上灵活的实操环境,项目跑起来会非常高效。关键是通义灵码个人版还免费!
社区供稿 | 姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0 再创榜单新高,魔搭开源可体验!
使用自然语言生成高质量的代码是大模型落地中的高频需求。近日,IDEA研究院封神榜团队正式开源最新的代码大模型Ziya-Coding-34B-v1.0,我们在HumanEval Pass@1的评测上,取得了75.5的好成绩,超过了GPT-4(67.0)的得分,也成为目前已知开源模型新高。
社区供稿 | 3D物生成,帮你轻松造万物
最近魔搭上线了一项新能力——用手机环拍物体1min视频即可生成3D模型
推荐6款2023年爆火的开源项目,你值得一试!
推荐6款2023年爆火的开源项目,你值得一试!
127 0
推荐6款2023年爆火的开源项目,你值得一试!
社区供稿 | 大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
北大团队新作,让大模型拥有个性!而且还是自定义那种,16种MBTI都能选。
惊 GitHub首次开源!在国内外都被称为分布式理论+实践的巅峰之作
如果你是一位软件行业从业者,尤其是从事服务器端或者后台系统软件开发,相信近年来一定被层出不穷的商业名词所包围:NoSQL、Big Data、Web-scale、Sharding.Eventual consistency、ACID、CAP理论、云服务、MapReduce和Real-time等,所有这些其实都围绕着如何构建高效存储与数据处理这一核心主题。过去十年,在数据库领域与分布式系统方面涌现了许多引人瞩目的进展,由此深刻地影响了如何构建上层应用系统。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等