AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 「别让渲染农场绑架创意!AI把视频生成压缩到实时级」

大家好,我是蚝油菜花。这些数字创作的至暗时刻你是否正在经历——

  • 👉 渲染3秒动画要等8小时,显卡阵列耗电堪比炼钢厂
  • 👉 生成1080P视频时内存爆表,工程文件比黑洞还吞噬空间
  • 👉 想实现长镜头运镜,结果画面断层像被刀片切割...

今天要炸裂影视界的 MAGI-1 ,正在重写视频生成法则!这把「时空剪辑器」:

  • ✅ 量子级吞吐:24B模型分块生成,效率飙升300%
  • ✅ 流式造梦术:4块4090实时渲染,4K视频秒级输出
  • ✅ 物理级连贯:块因果注意力黑科技,杜绝画面撕裂

已有动画大厂用它制作电影级长镜头,短视频团队靠AI日更百条4K内容——你的创作流,是时候突破「渲染监狱」了!

MAGI-1 是什么

MAGI-1

MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型,采用自回归架构,通过逐块预测视频序列生成流畅自然的视频,支持无限扩展和一镜到底的长视频生成。

模型原生分辨率可达 1440×2568,生成的视频动作流畅且细节逼真,具备可控生成能力,可通过分块提示实现平滑场景转换和细粒度控制。

MAGI-1 的主要功能

  • 高效视频生成:MAGI-1 能在短时间内生成高质量视频片段,例如生成 5 秒视频仅需 3 秒,生成 1 分钟视频可在 1 分钟内完成。通过分块生成(每块 24 帧)的方式,逐块去噪并并行处理,大幅提升生成效率。
  • 高保真输出:生成的视频具有高分辨率(原生 1440×2568),动作流畅且细节逼真,适合多种高质量视频创作需求。
  • 无限扩展与时间轴控制:支持无限长度扩展,可无缝续写生成连续长视频场景,具备秒级时间轴控制能力,用户可以通过逐块提示实现精细化的场景转换和编辑。
  • 可控生成:通过分块提示,MAGI-1 支持平滑的场景过渡、长视距合成和细粒度的文本驱动控制,能根据文本指令生成符合用户需求的视频内容。
  • 物理行为预测:在物理行为预测方面表现出色,能生成符合物理规律的动作和场景,适合复杂动态场景的生成。
  • 实时部署与灵活推理:支持实时流式视频生成,同时适配多种硬件配置,包括单张 RTX 4090 GPU 的部署,降低了使用门槛。

MAGI-1 的技术原理

  • 自回归去噪算法:MAGI-1 采用自回归去噪的方式生成视频,将视频划分为固定长度的片段(每块 24 帧),逐块进行去噪处理。当前一个片段达到一定去噪水平后,便开始生成下一个片段。这种流水线设计最多可同时处理四个片段,大幅提升了生成效率。
  • 基于 Transformer 的 VAE:模型使用基于 Transformer 架构的变分自编码器(VAE),实现了 8 倍空间压缩和 4 倍时间压缩。解码速度快,具备高竞争力的重建质量。
  • 扩散模型架构:MAGI-1 基于 Diffusion Transformer 构建,融入了多项创新技术,如块因果注意力、并行注意力块、QK-Norm 和 GQA、三明治归一化、SwiGLU 和 Softcap Modulation 等。提高了大规模训练的效率和稳定性。
  • 蒸馏算法:MAGI-1 采用了一种高效的蒸馏方法,训练了一个基于速度的模型,支持不同的推理预算。通过强制执行自一致性约束(将一个大步长等同于两个小步长),模型能在多个步长范围内逼近流匹配轨迹,实现高效推理。

如何运行 MAGI-1

1. 环境准备

我们提供两种运行 MAGI-1 的方式,推荐使用 Docker 环境。

使用 Docker 环境运行(推荐)

docker pull sandai/magi:latest

docker run -it --gpus all --privileged --shm-size=32g --name magi --net=host --ipc=host --ulimit memlock=-1 --ulimit stack=6710886 sandai/magi:latest /bin/bash
AI 代码解读

使用源代码运行

# 创建新环境
conda create -n magi python==3.10.12

# 安装 pytorch
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia

# 安装其他依赖
pip install -r requirements.txt

# 安装 ffmpeg
conda install -c conda-forge ffmpeg=4.4

# 安装 MagiAttention
git clone git@github.com:SandAI-org/MagiAttention.git
cd MagiAttention
git submodule update --init --recursive
pip install --no-build-isolation .
AI 代码解读

2. 推理命令

运行 MagiPipeline 时,可以通过修改 example/24B/run.shexample/4.5B/run.sh 脚本中的参数来控制输入和输出。以下是关键参数的说明:

参数说明

  • --config_file: 指定配置文件路径,包含模型配置参数,例如 example/24B/24B_config.json
  • --mode: 指定运行模式。可选模式包括:
    • t2v: 文本生成视频
    • i2v: 图像生成视频
    • v2v: 视频生成视频
  • --prompt: 用于视频生成的文本提示,例如 "Good Boy"
  • --image_path: 图像文件路径,仅在 i2v 模式下使用。
  • --prefix_video_path: 前缀视频文件路径,仅在 v2v 模式下使用。
  • --output_path: 生成的视频文件保存路径。

Bash 脚本

#!/bin/bash
# 运行 24B MAGI-1 模型
bash example/24B/run.sh

# 运行 4.5B MAGI-1 模型
bash example/4.5B/run.sh
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

蚝油菜花
+关注
目录
打赏
0
1
1
0
401
分享
相关文章
企业AI落地开源五剑客:Open-WebUI、Dify、RAGFlow、FastGPT、n8n
在AI技术迅猛发展的今天,企业常面临数据安全、技术门槛和系统整合等难题。本文介绍了五款开源工具——Open WebUI、Dify、RAGFlow、FastGPT和n8n,它们以低成本、私有化部署和模块化扩展的优势,助力企业构建AI能力闭环,覆盖交互、生成、知识处理与流程自动化等多个环节,推动AI真正落地应用。
开源AI BI可视化工具-WrenAI
Wren AI 是一款开源的 SQL AI 代理,支持数据、产品及业务团队通过聊天、直观界面和与 Excel、Google Sheets 的集成获取洞察。它结合大型语言模型(LLM)与检索增强生成(RAG)技术,助力用户高效处理复杂数据分析任务。
在AI应用中Prompt撰写重要却难掌握,‘理解模型与行业知识是关键’:提升迫在眉睫
本文三桥君探讨Prompt优化技巧对AI应用的重要性。内容涵盖理解大语言模型、行业Know-how及Prompt撰写方法,助力提升AI输出质量与应用效率。
123 58
高校实验实训课程开发:基于现有的硬件基础和开源能力研发最前沿的AI实验课程
更多基于学校现有硬件基础:企业需求场景的开发和发展,更加注重上层数据和应用,各类工具软件的出现,极大提升了各类硬件的应用价值。我们看到各类硬件厂商,想方设法把硬件卖给学校,但是很多硬件不是在那里尘封,就是寥寥无几的使用场景,我们希望基于学校现有的硬件基础去开发更多面向不同行业或专业的实验实训课程,物尽其用。基于学校现有的硬件,集约开发,极大降低硬件投入成本。
53 7
猫头虎 推荐:国产开源AI工具 爱派(AiPy)|支持本地部署、自动化操作本地文件的AI办公神器
爱派(AiPy)是一款国产开源AI工具,支持本地部署与自动化操作,助力数据处理与办公效率提升。基于Python Use理念,AiPy让AI直接控制本地文件,简化繁琐任务,提供高效智能的解决方案,适用于数据工程师、分析师及日常办公用户。
234 0
推荐一款Python开源的AI自动化工具:Browser Use
Browser Use 是一款基于 Python 的开源 AI 自动化工具,融合大型语言模型与浏览器自动化技术,支持网页导航、数据抓取、智能决策等操作,适用于测试、爬虫、信息提取等多种场景。
250 2
推荐一款Python开源的AI自动化工具:Browser Use
AI 时代,那些你需要了解的开源项目(二) |AI开发工具篇
随着人工智能技术的发展,AI驱动的开发工具正改变软件开发方式。Bolt.diy和OpenHands作为GitHub上热门的开源项目,分别在Web应用构建与全栈开发自动化方面表现突出。Bolt.diy支持通过自然语言快速生成完整Web应用,适合原型开发与小型项目;而OpenHands则专注于复杂软件任务自动化,如代码编写、调试与测试,适用于专业团队和大型项目。两者均提供自部署方案,助力开发者提升效率,推动AI在软件开发中的深度应用。
AI 时代,那些你需要了解的开源项目 (一) |AI应用开发平台篇
本文深入解析了Dify、n8n和Flowise三大AI应用开发平台的功能特点与适用场景。在AI技术日益普及的今天,这些工具让非专业人士也能轻松构建AI应用,助力企业实现智能化转型。并介绍了快速部署的方案

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问