设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 「设计师集体破防!这个AI竟能同时生成多个主体,字节新框架颠覆图像生成」
大家好,我是蚝油菜花。你是否经历过这些设计噩梦——

  • 👉 电商海报要放5款产品,生成图总缺胳膊少腿
  • 👉 虚拟试衣间模型穿模,项链和耳环永远不在正确位置
  • 👉 游戏角色设计图里,武器和坐骑的材质永远对不上...

今天要解剖的 UNO ,正在重写多主体生成规则!字节跳动这个AI框架用三大黑科技炸穿行业天花板:

  • 多主体精准控制:多个参考主体同框生成,位置/材质/光影完美对齐
  • 数据自进化系统:模型自己合成训练数据,解决多主体数据荒
  • 任意比例适配:从手机壁纸到巨幅海报,分辨率不再是限制

已有团队用它1小时出完季度产品图集,文末附《多主体生成秘籍》——你的设计流程准备好迎接核爆级升级了吗?

🚀 快速阅读

  1. UNO是字节跳动研发的AI图像生成框架,突破多主体场景下的生成一致性难题。
  2. 核心功能:单主体特征保持、多主体组合生成、虚拟试穿、风格化输出
  3. 技术原理:渐进式跨模态对齐策略、通用旋转位置嵌入技术、模型-数据共同进化范式

UNO 是什么

UNO

UNO基于扩散变换器架构,通过创新的数据合成管道生成高一致性多主体训练数据。其核心突破在于将文本到图像模型的生成能力迭代升级为多图像控制模型,实现从单主体到复杂场景的平滑过渡。

该框架采用两阶段渐进训练策略:第一阶段通过单主体数据微调模型,第二阶段引入多主体数据增强复杂场景处理能力。这种分阶段对齐方式有效解决了传统模型在多主体场景中的属性混淆问题。

UNO 的主要功能

  • 单主体精准控制:根据参考图生成不同场景下的同主体图像,特征保持误差降低67%
  • 多主体自由组合:支持同时输入10个参考主体,生成图像中物体位置精度提升89%
  • 动态分辨率适配:可在512×512至4096×4096范围内任意调整输出尺寸
  • 跨模态风格迁移:将参考主体特征与文本描述风格进行融合生成

UNO 的技术原理

  • 数据自生成管道:利用扩散变换器的上下文生成能力,自动创建多主体配对数据
  • 渐进式对齐机制:分阶段训练策略使模型逐步适应复杂场景
  • 通用旋转位置嵌入:通过位置索引调控多模态交互,解决属性混淆难题
  • 模型-数据共同进化:弱模型生成数据训练强模型,形成正向增强循环

如何运行 UNO

🔧 环境要求与安装

安装依赖项:

## 创建一个Python版本在3.10到3.12之间的虚拟环境,例如
# python -m venv uno_env
# source uno_env/bin/activate
# 然后安装
pip install -r requirements.txt

然后通过以下三种方式之一下载检查点:

  • 直接运行推理脚本,检查点将通过代码中的hf_hub_download函数自动下载到您的$HF_HOME(默认值为~/.cache/huggingface)。
  • 使用huggingface-cli download <repo name>下载black-forest-labs/FLUX.1-devxlabs-ai/xflux_text_encodersopenai/clip-vit-large-patch14bytedance-research/UNO,然后运行推理脚本。您可以只下载所需的检查点以加快设置速度并节省磁盘空间。例如,对于black-forest-labs/FLUX.1-dev使用huggingface-cli download black-forest-labs/FLUX.1-dev flux1-dev.safetensorshuggingface-cli download black-forest-labs/FLUX.1-dev ae.safetensors,忽略black-forest-labs/FLUX.1-dev模型仓库中的文本编码器(它们是为了diffusers调用)。所有检查点将占用37 GB的磁盘空间。
  • 使用huggingface-cli download <repo name> --local-dir <LOCAL_DIR>将2.中提到的所有检查点下载到您想要的目录。然后设置环境变量AEFLUX_DEV(如果您使用fp8模式则为FLUX_DEV_FP8)、T5CLIPLORA到相应的路径。最后,运行推理脚本。
  • 如果您已经有一些检查点,您可以设置环境变量AEFLUX_DEVT5CLIPLORA到相应的路径。最后,运行推理脚本。

🌟 Gradio 演示

python app.py

对于低显存使用,请传递--offload--name flux-dev-fp8参数。峰值显存使用量将为16GB。仅作参考,在RTX 3090上使用fp8和offload模式的端到端推理时间约为40秒到1分钟。

python app.py --offload --name flux-dev-fp8

✍️ 推理

从以下示例开始,探索并激发您的创造力。✨

python inference.py --prompt "A clock on the beach is under a red sun umbrella" --image_paths "assets/clock.png" --width 704 --height 704
python inference.py --prompt "The figurine is in the crystal ball" --image_paths "assets/figurine.png" "assets/crystal_ball.png" --width 704 --height 704
python inference.py --prompt "The logo is printed on the cup" --image_paths "assets/cat_cafe.png" "assets/cup.png" --width 704 --height 704

可选准备:如果您想首次在dreambench上测试推理,您应该克隆子模块dreambench以下载数据集。

git submodule update --init

然后运行以下脚本:

# 在dreambench上评估
## 单主体
python inference.py --eval_json_path ./datasets/dreambench_singleip.json
## 多主体
python inference.py --eval_json_path ./datasets/dreambench_multiip.json

🚄 训练

accelerate launch train.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
26天前
|
机器学习/深度学习 人工智能 自动驾驶
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
英伟达推出的DAM-3B多模态大语言模型,通过创新的焦点提示技术和局部视觉骨干网络,实现了对图像和视频中特定区域的精准描述生成,为内容创作和智能交互领域带来全新可能。
156 0
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
|
20天前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
168 18
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
13天前
|
机器学习/深度学习 人工智能 算法
破解生成式AI认知边界:框架思维引擎如何重塑产业智能化未来
该内容深入解析了核心技术架构,涵盖思维链强化系统(DTT)、认知框架建模体系和实时纠偏算法体系。DTT通过多级问题拆解、混合精度推理及分布式验证,大幅提升复杂问题处理能力;认知框架结合知识图谱与逻辑推理,实现精准医疗诊断等应用;实时纠偏算法则通过多级验证机制保障事实与逻辑准确性。整体架构分应用层、框架层和基础层,支持高效、可信的跨领域适配。技术创新体现在混合计算加速、持续学习机制等方面,显著优于传统模型,在事实准确性、逻辑连续性及响应速度上优势明显。
61 28
|
25天前
|
人工智能 自然语言处理 监控
Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!
Cooragent 是清华大学 LeapLab 团队推出的开源 AI Agent 协作框架,支持基于简单描述快速创建 Agent 并实现多 Agent 协作,具备 Prompt-Free 设计和本地部署能力。
212 6
Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!
|
9天前
|
人工智能 弹性计算 智能设计
🎨 三步打造AI创意工坊 | 通义万相图像生成服务极速部署指南
🚀 从零到大师 | 通义万相智能创作系统部署指南
|
6天前
|
人工智能 开发框架 前端开发
斩获3K+ star,再见传统开发!这款开源AI后台开发框架让效率提升300%
ruoyi-ai 是基于 ruoyi-plus 框架开发的开源 AI 平台,集成 ChatGPT4、DALL·E-3 和 MidJourney 等前沿模型,提供聊天、绘画、语音克隆等全栈式 AI 能力。其核心价值在于多模态交互与企业级部署支持,开发者可快速搭建智能应用,个人用户亦能轻松体验 AI 创作魅力。项目支持自定义知识库训练、AI 绘画生成、语音克隆、弹幕互动等功能,采用 Java17+SpringBoot3.X 技术栈,前后端分离设计,具备高效性能与扩展性。相比同类项目,ruoyi-ai 提供更丰富的功能组合和企业级管理能力,适用于多种场景需求。
|
5月前
|
机器学习/深度学习 人工智能 算法
AI框架的赢者法则:生态繁荣的昇思MindSpore,成为大模型时代的新选择
2024年被视为大模型应用的元年。昇思MindSpore AI框架凭借其强大的开源社区和技术创新,在全球范围内迅速崛起。截至2024年11月,该框架的下载量已超过1100万次,覆盖130多个国家和地区的2400多个城市,拥有3.7万名贡献者。昇思MindSpore不仅在人才培养和社区治理方面表现出色,还在大模型的开发、训练和应用中发挥了关键作用,支持了50多个主流大模型,覆盖15个行业。随着其市场份额预计达到30%,昇思MindSpore正逐步成为行业共识,推动大模型在各领域的广泛应用。
147 12
|
机器学习/深度学习 人工智能 算法
国产AI框架支棱起来了!这所211高校凭昇思MindSpore连发10篇顶刊/顶会论文
国产AI框架支棱起来了!这所211高校凭昇思MindSpore连发10篇顶刊/顶会论文
279 0
|
人工智能 算法 开发者
华为开源全场景AI计算框架MindSpore,性能可达 Pytorch+2080Ti 的1.93倍
华为开源全场景AI计算框架MindSpore,性能可达 Pytorch+2080Ti 的1.93倍
596 0
|
机器学习/深度学习 人工智能 自然语言处理
进击的 AI 框架,MindSpore 开源一周年
开源一年以来,累计发布 8 个新版本,汇聚超过 3000 名社区开发者的代码贡献,社区访问量超千万;现拥有超过 100 个大的基础模型,涵盖计算机视觉、NLP 等主流的 AI 和深度学习框架;累计 PR 数 超过 2 万个,下载量高达 22 万次,下载用户遍布全球;超过 100 所高校参与了社区活动,超过 40 家科研机构利用它去发表原创论文。这就是全场景 AI 计算框架 MindSpore 开源一年来取得的成绩!
360 0
进击的 AI 框架,MindSpore 开源一周年

热门文章

最新文章