字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!

简介: 字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!

你敢信,1张人物图片 + 1张动作动画,就可以生成一段视频。网友直呼:“主播/视频UP主可能快要下岗了!”

(模型视频来源于网络)

本周,字节跳动联合新加坡国立大学发布了一款开源项目 MagicAnimate,在GitHub开源网站上发布不到4天,就收揽了 6.4k Star!受到了一大批科技大佬和互联网从业者的关注,并有网友在抖音上发布了试用效果,简直杠杠的!


接下来小编带大家一起来看一看这一款由字节跳动、新加坡国立大学合作研发的宝藏AI视频工具


项目介绍


MagicAnimate 是一款使用扩散模型实现的时域一致的人体图像动画工具。

它可以通过对人体图像进行扩散模型的运算,实现高质量、自然流畅的人体动画效果。MagicAnimate 具有高度的可控性和灵活性,可以通过微调参数来实现不同的动画效果。


它适用于人体动画创作、虚拟角色设计等领域。


你可以可以采用任何具体人像的图像照片+动作视频,去生成一个具有自己风格的人物动作,以下是网友采用网络上一张照片再加上跑步动作生成的。

(效果图来源于网络


在线体验


官方团队在HuggingFace中开放了在线体验的模型Spaces。


模型在线体验地址:https://huggingface.co/spaces/zcxu-eric/magicanimate

具体使用步骤也非常简单,只需3个步骤即可:

  • 先上传一张静态人物图片
  • 在上传想要生成的动作demo视频
  • 最后调整参数,点击“Animate”即可生成



本地搭建使用


如果想要在本地计算机搭建模型使用,需要先下载以下 2 个预训练基础模型和 1 个MagicAnimate模型。

  • stable-diffusion-v1-5;
  • sd-vae-ft-mse;
  • MagicAnimate


Python 语言依赖需要python版本在3.8及以上, CUDA>=11.3, ffmpeg音视频处理工具


快捷安装命令:

pip install -r requirements.txt

在单个 GPU 上运行推理:

bash scripts/animate.sh

使用多个 GPU 运行推理:

bash scripts/animate_dist.sh

在单 GPU 上启动本地 gradio 演示:

python3 -m demo.gradio_animate

如果您有多个 GPU,请启动本地 gradio 演示:

python3 -m demo.gradio_animate_dist

然后在本地浏览器中打开gradio demo即可体验。


总结


MagicAnimate 的主要应用领域:


1、未知领域动画:MagicAnimate可以为油画和电影角色等未知领域图像制作跑步或做瑜伽的动画。

2、结合T2I扩散模型:将MagicAnimate与DALLE-3生成的参考图像结合,制作各种动作的动画。

3、多人动画:根据给定的运动,为多个人制作动画。


MagicAnimate 产品的主要特色之一是它的高质量和自然流畅的动画效果。使用扩散模型处理人体图像,能够生成逼真的人体动动效果,使得动画更加栩栩如生。


另一个重要特点是MagicAnimate的可控性和灵活性。用户可以根据需要微调参数,实现不同的动画效果,使其适应不同的创作需求和风格。


与阿里的Animate Anyone相比,画面质量,人物一致性上、手部和面部动作 MagicAnimate 差一些,但MagicAnimate支持多人。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
15天前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
260 14
|
1月前
|
机器学习/深度学习 人工智能 编解码
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
|
2月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
62 3
|
数据挖掘 人工智能 算法框架/工具
AI可以通过图片找BUG吗?闲鱼给出了他们的实践结果
随着AI技术的不断发展,TensorFlow大热,也给测试手段带来了更多种可能,本文接下来给大家介绍AI在闲鱼测试的一点实践:如何应用AI技术通过图片找bug。
1171 2
|
5天前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
|
5天前
|
数据采集 人工智能 前端开发
Playwright与AI智能体的网页爬虫创新应用
厌倦重复测试与低效爬虫?本课程带您掌握Playwright自动化工具,并融合AI大模型构建智能体,实现网页自主分析、决策与数据提取,完成从脚本执行到智能架构的能力跃升。
|
5天前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。
|
7天前
|
设计模式 机器学习/深度学习 人工智能
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
|
7天前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
86 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用