MakeAnything:手残党有救了!新加坡国立大学开源AI教程生成器:上传任意作品,自动生成分步图示指南!

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: MakeAnything 是新加坡国立大学推出的一致性图片序列生成框架,基于扩散变换器和非对称低秩适配技术,支持从文本或图像生成高质量的分步教程。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 「教程制作人集体失业?NUS用AI重构知识传递:上传任意作品,自动生成分步指南!」
大家好,我是蚝油菜花。你是否经历过——

  • 👉 花3小时录制的烘焙教程,播放量不及猫咪打哈欠
  • 👉 手工达人被粉丝催更到秃头,创意跟不上剪辑速度
  • 👉 企业培训视频更新一次,要动用5个部门联合作战...

今天揭秘新加坡国立大学Show Lab团队的 MakeAnything ,这个基于扩散变换器的AI框架,正在掀起创作革命!它能将任意图像或文字描述,自动转换为逻辑严谨的步骤化教程,覆盖绘画/手工/烹饪等21个领域。美术老师用它5分钟生成课件,乐高设计师靠它逆向破解神作——你的知识生产方式该升级了!

🚀 快速阅读

MakeAnything 是一个基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架。

  1. 核心功能:支持从文本或图像生成逻辑连贯、视觉一致的分步教程。
  2. 技术原理:结合非对称低秩适配(LoRA)技术和 ReCraft 模型,确保生成的教程与输入高度一致。

MakeAnything 是什么

MakeAnything

MakeAnything 是由新加坡国立大学 Show Lab 团队推出的一个多领域程序性序列生成框架,能够根据文本描述或图像输入生成高质量的分步教程。该框架基于扩散变换器(Diffusion Transformer),通过逐步去除噪声生成图像序列,并结合 Transformer 架构处理复杂的视觉和文本信息。此外,MakeAnything 引入了非对称低秩适配(LoRA)技术,平衡泛化能力和任务特定性能,确保在多种任务中展现卓越的性能和泛化能力。

MakeAnything 构建了一个涵盖 21 个领域(如绘画、手工、烹饪等)的大型数据集,包含超过 24,000 个标注序列。这些数据集为模型训练提供了丰富的支持,使 MakeAnything 能够生成逻辑连贯、视觉一致的教程,适用于多种应用场景。

MakeAnything 的主要功能

  • 从文本生成教程:根据用户提供的文本描述(如“如何画一幅油画”或“如何制作乐高模型”),自动生成详细的分步教程,帮助用户逐步完成复杂的创作任务。
  • 从图像生成教程:用户上传一张成品图像(如一幅画或一个手工制品),MakeAnything 能逆向生成该作品的创作过程,展示从无到有的步骤。
  • 跨领域生成能力:支持多种领域(如绘画、手工、烹饪、3D 建模等),根据不同的任务生成逻辑连贯且视觉一致的教程。
  • 高质量的教程输出:生成的教程逻辑清晰,且保持与输入文本或图像的高度一致性。

MakeAnything 的技术原理

  • 扩散变换器:使用扩散模型的核心思想,基于逐步去除噪声生成图像序列。结合 Transformer 架构,处理复杂的视觉和文本信息,生成高质量的程序性序列。
  • 非对称低秩适配:基于冻结预训练的编码器参数,仅对解码器进行微调,平衡模型的泛化能力和任务特定性能。适用于数据稀缺或分布不平衡的任务,有效避免过拟合。
  • ReCraft 模型:基于将静态图像分解为逐步的创作过程,实现从图像到过程的逆向生成。用多模态注意力机制,将图像条件信息融入生成过程中,确保生成的序列与输入图像高度一致。
  • 条件流匹配损失:优化噪声去除过程中的条件向量场,确保生成的序列在逻辑和视觉上与输入条件(文本或图像)保持一致。

如何运行 MakeAnything

1. 环境搭建

git clone https://github.com/showlab/MakeAnything.git
cd MakeAnything

conda create -n makeanything python=3.11.10
conda activate makeanything

2. 安装依赖

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install --upgrade -r requirements.txt

accelerate config

3. Asymmetric LoRA 训练

chmod +x scripts/asylora_train.sh
scripts/asylora_train.sh

4. Recraft Model 训练

chmod +x scripts/recraft_train.sh
scripts/recraft_train.sh

5. 推理

chmod +x scripts/asylora_inference.sh
scripts/asylora_inference.sh

chmod +x scripts/recraft_inference.sh
scripts/recraft_inference.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2天前
|
Web App开发 人工智能 机器人
牛逼,这款开源聊天应用竟能一键召唤多个AI助手,跨平台通话神器!
`JiwuChat`是一款基于Tauri2和Nuxt3构建的轻量化多平台即时通讯工具,仅约8MB体积却集成了**AI群聊机器人**、**WebRTC音视频通话**、**屏幕共享**等前沿功能。一套代码适配Windows/macOS/Linux/Android/iOS/Web六大平台,堪称开发者学习跨端开发的绝佳样板!
|
3天前
|
人工智能 并行计算 语音技术
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
95 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
|
3天前
|
存储 人工智能 前端开发
Botgroup.chat:超有趣的开源 AI 聊天室!多个 AI 在线互怼,一键搭建你的专属 AI 社群
Botgroup.chat 是一款基于 React 和 Cloudflare Pages 的开源 AI 聊天应用,支持多个 AI 角色同时参与对话,提供类似群聊的交互体验。
312 23
|
4天前
|
人工智能 自然语言处理 API
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
MM-StoryAgent 是上海交通大学与阿里巴巴联合推出的开源多模态、多智能体框架,用于生成沉浸式的有声故事绘本视频,支持文本、图像、语音等多种模态的生成与对齐。
54 7
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
|
4天前
|
人工智能 自然语言处理 算法
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科研工具,基于大型语言模型(LLM)代理,支持从研究想法到论文发表的全流程自动化,涵盖文献综述、算法设计、实验验证和论文撰写等功能。
109 8
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
|
4天前
|
人工智能 安全 数据可视化
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
157 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
|
5天前
|
人工智能 自然语言处理 安全
Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目
Anus 是一个开源 AI 智能体项目,复刻了 Manus 的部分功能,支持自然语言指令执行、多代理协作、多模态输入处理等功能,旨在为开发者提供强大且灵活的工具。
121 1
Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目
|
7天前
|
Web App开发 人工智能 JavaScript
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
124 1
|
7天前
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
757 0
|
8天前
|
消息中间件 人工智能 安全
秒级灾备恢复:Kafka 2025 AI自愈集群下载及跨云Topic迁移终极教程
Apache Kafka 2025作为企业级实时数据中枢,实现五大革新:量子安全传输(CRYSTALS-Kyber抗量子加密算法)、联邦学习总线(支持TensorFlow Federated/Horizontal FL框架)、AI自愈集群(MTTR缩短至30秒内)、多模态数据处理(原生支持视频流、3D点云等)和跨云弹性扩展(AWS/GCP/Azure间自动迁移)。平台采用混合云基础设施矩阵与软件依赖拓扑设计,提供智能部署架构。安装流程涵盖抗量子安装包获取、量子密钥配置及联邦学习总线设置。

热门文章

最新文章