❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎬 「教程制作人集体失业?NUS用AI重构知识传递:上传任意作品,自动生成分步指南!」
大家好,我是蚝油菜花。你是否经历过——
- 👉 花3小时录制的烘焙教程,播放量不及猫咪打哈欠
- 👉 手工达人被粉丝催更到秃头,创意跟不上剪辑速度
- 👉 企业培训视频更新一次,要动用5个部门联合作战...
今天揭秘新加坡国立大学Show Lab团队的 MakeAnything ,这个基于扩散变换器的AI框架,正在掀起创作革命!它能将任意图像或文字描述,自动转换为逻辑严谨的步骤化教程,覆盖绘画/手工/烹饪等21个领域。美术老师用它5分钟生成课件,乐高设计师靠它逆向破解神作——你的知识生产方式该升级了!
🚀 快速阅读
MakeAnything 是一个基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架。
- 核心功能:支持从文本或图像生成逻辑连贯、视觉一致的分步教程。
- 技术原理:结合非对称低秩适配(LoRA)技术和 ReCraft 模型,确保生成的教程与输入高度一致。
MakeAnything 是什么
MakeAnything 是由新加坡国立大学 Show Lab 团队推出的一个多领域程序性序列生成框架,能够根据文本描述或图像输入生成高质量的分步教程。该框架基于扩散变换器(Diffusion Transformer),通过逐步去除噪声生成图像序列,并结合 Transformer 架构处理复杂的视觉和文本信息。此外,MakeAnything 引入了非对称低秩适配(LoRA)技术,平衡泛化能力和任务特定性能,确保在多种任务中展现卓越的性能和泛化能力。
MakeAnything 构建了一个涵盖 21 个领域(如绘画、手工、烹饪等)的大型数据集,包含超过 24,000 个标注序列。这些数据集为模型训练提供了丰富的支持,使 MakeAnything 能够生成逻辑连贯、视觉一致的教程,适用于多种应用场景。
MakeAnything 的主要功能
- 从文本生成教程:根据用户提供的文本描述(如“如何画一幅油画”或“如何制作乐高模型”),自动生成详细的分步教程,帮助用户逐步完成复杂的创作任务。
- 从图像生成教程:用户上传一张成品图像(如一幅画或一个手工制品),MakeAnything 能逆向生成该作品的创作过程,展示从无到有的步骤。
- 跨领域生成能力:支持多种领域(如绘画、手工、烹饪、3D 建模等),根据不同的任务生成逻辑连贯且视觉一致的教程。
- 高质量的教程输出:生成的教程逻辑清晰,且保持与输入文本或图像的高度一致性。
MakeAnything 的技术原理
- 扩散变换器:使用扩散模型的核心思想,基于逐步去除噪声生成图像序列。结合 Transformer 架构,处理复杂的视觉和文本信息,生成高质量的程序性序列。
- 非对称低秩适配:基于冻结预训练的编码器参数,仅对解码器进行微调,平衡模型的泛化能力和任务特定性能。适用于数据稀缺或分布不平衡的任务,有效避免过拟合。
- ReCraft 模型:基于将静态图像分解为逐步的创作过程,实现从图像到过程的逆向生成。用多模态注意力机制,将图像条件信息融入生成过程中,确保生成的序列与输入图像高度一致。
- 条件流匹配损失:优化噪声去除过程中的条件向量场,确保生成的序列在逻辑和视觉上与输入条件(文本或图像)保持一致。
如何运行 MakeAnything
1. 环境搭建
git clone https://github.com/showlab/MakeAnything.git
cd MakeAnything
conda create -n makeanything python=3.11.10
conda activate makeanything
AI 代码解读
2. 安装依赖
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124 pip install --upgrade -r requirements.txt accelerate config
AI 代码解读
3. Asymmetric LoRA 训练
chmod +x scripts/asylora_train.sh
scripts/asylora_train.sh
AI 代码解读
4. Recraft Model 训练
chmod +x scripts/recraft_train.sh
scripts/recraft_train.sh
AI 代码解读
5. 推理
chmod +x scripts/asylora_inference.sh
scripts/asylora_inference.sh
chmod +x scripts/recraft_inference.sh
scripts/recraft_inference.sh
AI 代码解读
资源
- GitHub 仓库:https://github.com/showlab/MakeAnything
- HuggingFace 仓库:https://huggingface.co/showlab/makeanything
- HuggingFace 数据集:https://huggingface.co/datasets/showlab/makeanything
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦