字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!

简介: 字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!

你敢信,1张人物图片 + 1张动作动画,就可以生成一段视频。网友直呼:“主播/视频UP主可能快要下岗了!”

(模型视频来源于网络)

本周,字节跳动联合新加坡国立大学发布了一款开源项目 MagicAnimate,在GitHub开源网站上发布不到4天,就收揽了 6.4k Star!受到了一大批科技大佬和互联网从业者的关注,并有网友在抖音上发布了试用效果,简直杠杠的!


接下来小编带大家一起来看一看这一款由字节跳动、新加坡国立大学合作研发的宝藏AI视频工具


项目介绍


MagicAnimate 是一款使用扩散模型实现的时域一致的人体图像动画工具。

它可以通过对人体图像进行扩散模型的运算,实现高质量、自然流畅的人体动画效果。MagicAnimate 具有高度的可控性和灵活性,可以通过微调参数来实现不同的动画效果。


它适用于人体动画创作、虚拟角色设计等领域。


你可以可以采用任何具体人像的图像照片+动作视频,去生成一个具有自己风格的人物动作,以下是网友采用网络上一张照片再加上跑步动作生成的。

(效果图来源于网络


在线体验


官方团队在HuggingFace中开放了在线体验的模型Spaces。


模型在线体验地址:https://huggingface.co/spaces/zcxu-eric/magicanimate

具体使用步骤也非常简单,只需3个步骤即可:

  • 先上传一张静态人物图片
  • 在上传想要生成的动作demo视频
  • 最后调整参数,点击“Animate”即可生成



本地搭建使用


如果想要在本地计算机搭建模型使用,需要先下载以下 2 个预训练基础模型和 1 个MagicAnimate模型。

  • stable-diffusion-v1-5;
  • sd-vae-ft-mse;
  • MagicAnimate


Python 语言依赖需要python版本在3.8及以上, CUDA>=11.3, ffmpeg音视频处理工具


快捷安装命令:

pip install -r requirements.txt

在单个 GPU 上运行推理:

bash scripts/animate.sh

使用多个 GPU 运行推理:

bash scripts/animate_dist.sh

在单 GPU 上启动本地 gradio 演示:

python3 -m demo.gradio_animate

如果您有多个 GPU,请启动本地 gradio 演示:

python3 -m demo.gradio_animate_dist

然后在本地浏览器中打开gradio demo即可体验。


总结


MagicAnimate 的主要应用领域:


1、未知领域动画:MagicAnimate可以为油画和电影角色等未知领域图像制作跑步或做瑜伽的动画。

2、结合T2I扩散模型:将MagicAnimate与DALLE-3生成的参考图像结合,制作各种动作的动画。

3、多人动画:根据给定的运动,为多个人制作动画。


MagicAnimate 产品的主要特色之一是它的高质量和自然流畅的动画效果。使用扩散模型处理人体图像,能够生成逼真的人体动动效果,使得动画更加栩栩如生。


另一个重要特点是MagicAnimate的可控性和灵活性。用户可以根据需要微调参数,实现不同的动画效果,使其适应不同的创作需求和风格。


与阿里的Animate Anyone相比,画面质量,人物一致性上、手部和面部动作 MagicAnimate 差一些,但MagicAnimate支持多人。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
19天前
|
人工智能
在stable diffussion中完美修复AI图片
无论您的提示和模型有多好,一次性获得完美图像的情况很少见。修复小缺陷的不可或缺的方法是图像修复(inpainting)
在stable diffussion中完美修复AI图片
|
2天前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
9 4
|
3天前
|
数据采集 人工智能 安全
AI项目高昂成本与数据问题阻碍进展,2025年前30%的GenAI项目或将搁浅
AI项目高昂成本与数据问题阻碍进展,2025年前30%的GenAI项目或将搁浅
|
1月前
|
人工智能 PyTorch 算法框架/工具
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
【8月更文挑战第6天】Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
|
2天前
|
存储 人工智能 JavaScript
根据Accenture的研究,CEO和CFO谈论AI和GenAI是有原因的
数字化转型与当前GenAI领导者之间的关键区别在于,CEO和CFO(而非CIO)似乎参与了指导AI投资的过程。例如,Accenture在2024年1月报告称,到2023年底,在财报电话会议中提到AI的次数几乎达到4万次,因为C级领导层正在为“重大技术变革”做好准备
11 0
|
1月前
|
边缘计算 人工智能 监控
边缘计算与AI结合的场景案例研究
【8月更文第17天】随着物联网(IoT)设备数量的爆炸性增长,对实时数据处理的需求也随之增加。传统的云计算模型在处理这些数据时可能会遇到延迟问题,尤其是在需要即时响应的应用中。边缘计算作为一种新兴的技术趋势,旨在通过将计算资源更靠近数据源来解决这个问题。本文将探讨如何将人工智能(AI)技术与边缘计算结合,以实现高效的实时数据分析和决策制定。
93 1
|
1月前
|
数据采集 存储 人工智能
利用AI技术改善数字化转型项目的九种方法
利用AI技术改善数字化转型项目的九种方法
|
1月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
35 0
|
1月前
|
机器学习/深度学习 人工智能 算法
|
3天前
|
机器学习/深度学习 存储 人工智能
AI与未来医疗:技术的飞跃与挑战
在当今科技迅速发展的时代,人工智能(AI)正以前所未有的速度渗透到各行各业。特别是在医疗领域,AI的潜力和应用前景令人瞩目。本文将探讨AI在未来医疗中的角色,分析其带来的变革与挑战,并展望未来的发展方向。