MakeAnything:手残党有救了!新加坡国立大学开源AI教程生成器:上传任意作品,自动生成分步图示指南!

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: MakeAnything 是新加坡国立大学推出的一致性图片序列生成框架,基于扩散变换器和非对称低秩适配技术,支持从文本或图像生成高质量的分步教程。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 「教程制作人集体失业?NUS用AI重构知识传递:上传任意作品,自动生成分步指南!」
大家好,我是蚝油菜花。你是否经历过——

  • 👉 花3小时录制的烘焙教程,播放量不及猫咪打哈欠
  • 👉 手工达人被粉丝催更到秃头,创意跟不上剪辑速度
  • 👉 企业培训视频更新一次,要动用5个部门联合作战...

今天揭秘新加坡国立大学Show Lab团队的 MakeAnything ,这个基于扩散变换器的AI框架,正在掀起创作革命!它能将任意图像或文字描述,自动转换为逻辑严谨的步骤化教程,覆盖绘画/手工/烹饪等21个领域。美术老师用它5分钟生成课件,乐高设计师靠它逆向破解神作——你的知识生产方式该升级了!

🚀 快速阅读

MakeAnything 是一个基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架。

  1. 核心功能:支持从文本或图像生成逻辑连贯、视觉一致的分步教程。
  2. 技术原理:结合非对称低秩适配(LoRA)技术和 ReCraft 模型,确保生成的教程与输入高度一致。

MakeAnything 是什么

MakeAnything

MakeAnything 是由新加坡国立大学 Show Lab 团队推出的一个多领域程序性序列生成框架,能够根据文本描述或图像输入生成高质量的分步教程。该框架基于扩散变换器(Diffusion Transformer),通过逐步去除噪声生成图像序列,并结合 Transformer 架构处理复杂的视觉和文本信息。此外,MakeAnything 引入了非对称低秩适配(LoRA)技术,平衡泛化能力和任务特定性能,确保在多种任务中展现卓越的性能和泛化能力。

MakeAnything 构建了一个涵盖 21 个领域(如绘画、手工、烹饪等)的大型数据集,包含超过 24,000 个标注序列。这些数据集为模型训练提供了丰富的支持,使 MakeAnything 能够生成逻辑连贯、视觉一致的教程,适用于多种应用场景。

MakeAnything 的主要功能

  • 从文本生成教程:根据用户提供的文本描述(如“如何画一幅油画”或“如何制作乐高模型”),自动生成详细的分步教程,帮助用户逐步完成复杂的创作任务。
  • 从图像生成教程:用户上传一张成品图像(如一幅画或一个手工制品),MakeAnything 能逆向生成该作品的创作过程,展示从无到有的步骤。
  • 跨领域生成能力:支持多种领域(如绘画、手工、烹饪、3D 建模等),根据不同的任务生成逻辑连贯且视觉一致的教程。
  • 高质量的教程输出:生成的教程逻辑清晰,且保持与输入文本或图像的高度一致性。

MakeAnything 的技术原理

  • 扩散变换器:使用扩散模型的核心思想,基于逐步去除噪声生成图像序列。结合 Transformer 架构,处理复杂的视觉和文本信息,生成高质量的程序性序列。
  • 非对称低秩适配:基于冻结预训练的编码器参数,仅对解码器进行微调,平衡模型的泛化能力和任务特定性能。适用于数据稀缺或分布不平衡的任务,有效避免过拟合。
  • ReCraft 模型:基于将静态图像分解为逐步的创作过程,实现从图像到过程的逆向生成。用多模态注意力机制,将图像条件信息融入生成过程中,确保生成的序列与输入图像高度一致。
  • 条件流匹配损失:优化噪声去除过程中的条件向量场,确保生成的序列在逻辑和视觉上与输入条件(文本或图像)保持一致。

如何运行 MakeAnything

1. 环境搭建

git clone https://github.com/showlab/MakeAnything.git
cd MakeAnything

conda create -n makeanything python=3.11.10
conda activate makeanything
AI 代码解读

2. 安装依赖

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install --upgrade -r requirements.txt

accelerate config
AI 代码解读

3. Asymmetric LoRA 训练

chmod +x scripts/asylora_train.sh
scripts/asylora_train.sh
AI 代码解读

4. Recraft Model 训练

chmod +x scripts/recraft_train.sh
scripts/recraft_train.sh
AI 代码解读

5. 推理

chmod +x scripts/asylora_inference.sh
scripts/asylora_inference.sh

chmod +x scripts/recraft_inference.sh
scripts/recraft_inference.sh
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
15
15
0
360
分享
相关文章
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
TDengine 发布时序数据分析 AI 智能体 TDgpt,核心代码开源
2025 年 3 月 26 日,涛思数据通过线上直播形式正式发布了其新一代时序数据分析 AI 智能体——TDgpt,并同步开源其核心代码(GitHub 地址:https://github.com/taosdata/TDengine)。这一创新功能作为 TDengine 3.3.6.0 的重要组成部分,标志着时序数据库在原生集成 AI 能力方面迈出了关键一步。
32 0
ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看
ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。
76 0
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
85 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
Vibe Draw 是一款基于AI技术的开源3D建模工具,通过Next.js和FastAPI构建,能将用户绘制的2D草图智能转化为3D模型,并支持文本提示优化和场景构建。
60 35
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程
TripoSR是由Stability AI和VAST联合推出的开源3D生成模型,能在0.5秒内从单张2D图像快速生成高质量3D模型,支持游戏开发、影视制作等多领域应用。
43 13
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。
42 18
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
OpenDeepSearch:搜索引擎革命!这个开源深度搜索工具让AI代理直接读懂网页,复杂问题一键拆解
OpenDeepSearch是基于开源推理模型的深度搜索工具,通过语义重排和多源整合优化检索效果,支持与AI代理无缝集成,提供快速和专业两种搜索模式。
51 10
OpenDeepSearch:搜索引擎革命!这个开源深度搜索工具让AI代理直接读懂网页,复杂问题一键拆解
FinGPT:华尔街颤抖!用股价训练AI,开源金融大模型预测股价准确率碾压分析师,量化交易新利器
FinGPT是基于Transformer架构的开源金融大模型,通过RLHF技术和实时数据处理能力,支持情感分析、市场预测等核心功能,其LoRA微调技术大幅降低训练成本。
33 12
FinGPT:华尔街颤抖!用股价训练AI,开源金融大模型预测股价准确率碾压分析师,量化交易新利器
31.3K star!开源免费本地AI神器,一键部署多模态大模型!
LocalAI 是一款革命性的开源AI框架,专为本地化部署设计。它完美复现了OpenAI的API接口,支持运行各类开源大模型(如LLaMA3、Phi-2、Stable Diffusion等),无需GPU即可在普通电脑上实现:

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等