新扩散模型OmniGen一统图像生成,架构还高度简化、易用

简介: 近期,一篇题为“OmniGen: Unified Image Generation”的论文介绍了一种新型扩散模型OmniGen,旨在统一图像生成任务。OmniGen架构简洁,无需额外模块即可处理多种任务,如文本到图像生成、图像编辑等。该模型通过修正流优化,展现出与现有模型相当或更优的性能,尤其在图像编辑和视觉条件生成方面表现突出。OmniGen仅含3.8亿参数,却能有效处理复杂任务,简化工作流程。尽管如此,OmniGen仍存在对文本提示敏感、文本渲染能力有限等问题,未来研究将继续优化其架构与功能。

近年来,大型语言模型(LLMs)在统一语言生成任务方面取得了显著成就,彻底改变了人机交互的方式。然而,在图像生成领域,一个能够处理各种任务的统一模型仍然是一个未被充分探索的领域。最近,一篇名为"OmniGen: Unified Image Generation"的论文提出了一种名为OmniGen的新扩散模型,旨在统一图像生成任务。

OmniGen的主要创新之处在于其架构的高度简化和易用性,以及其能够处理各种图像生成任务的能力。与现有的扩散模型(如Stable Diffusion)不同,OmniGen不需要额外的模块(如ControlNet或IP-Adapter)来处理不同的控制条件。

OmniGen不仅展示了文本到图像的生成能力,还能够支持各种下游任务,如图像编辑、主体驱动生成和视觉条件生成。此外,OmniGen还能够通过将它们转化为图像生成任务来处理经典的计算机视觉任务,如边缘检测和人体姿态识别。

OmniGen的架构非常简洁,消除了对额外文本编码器的需求。与现有的扩散模型相比,OmniGen更加用户友好,使复杂的任务能够通过指令完成,而不需要额外的预处理步骤(如人体姿态估计),从而大大简化了图像生成的工作流程。

由于在统一格式下进行学习,OmniGen能够有效地在不同的场景之间转移知识,处理未见过的任务和领域,并展示出新的能力。

OmniGen的架构由两个主要组件组成:一个变分自编码器(VAE)和一个预训练的大型Transformer模型。VAE用于从图像中提取连续的视觉特征,而Transformer模型则根据输入条件生成图像。

在输入方面,OmniGen可以接受任意形式的图像和文本输入,以支持各种任务。对于文本输入,OmniGen使用Phi-3的tokenizer进行处理,而对于图像输入,OmniGen使用一个简单的线性层将它们转换为潜在表示,然后使用线性嵌入将每个补丁转换为视觉标记。

在注意力机制方面,OmniGen修改了LLM中的常见因果注意力机制,将其与双向注意力结合使用。具体来说,OmniGen对序列中的每个元素应用因果注意力,但对每个图像序列内的元素应用双向注意力。这允许每个补丁关注同一图像中的其他补丁,同时确保每个图像只能关注之前出现的其他图像或文本序列。

OmniGen使用修正流(rectified flow)来优化模型参数。与DDPM(Denoising Diffusion Probabilistic Models)不同,修正流通过在噪声和数据之间进行线性插值来进行前向过程。OmniGen被训练为根据噪声数据、时间步长和条件信息直接回归目标速度。

在图像编辑任务中,OmniGen面临的一个挑战是模型可能会学习到一个意外的捷径,即简单地复制输入图像作为输出,以使相关的训练损失非常低。为了解决这个问题,OmniGen通过放大图像中发生变化的区域的损失来引导模型关注需要修改的区域。

OmniGen在多个图像生成任务上进行了评估,包括文本到图像生成、图像编辑、主体驱动生成和视觉条件控制。在所有这些任务上,OmniGen都展示了与现有模型相当或更好的性能。

在GenEval基准测试中,OmniGen与现有的图像生成模型进行了比较,并展示了与当前最先进的扩散模型相当的性能。值得注意的是,OmniGen只有3.8亿个参数,而SD3模型有12.7亿个参数。

在EMU-Edit数据集上,OmniGen与现有的图像编辑模型进行了比较,并展示了与当前最先进的模型相当的性能。

在DreamBench数据集上,OmniGen展示了比基于微调的方法更好的主体保真度和文本保真度。

在使用不同视觉条件(如分割掩码、Canny边缘地图、HED边缘地图和深度地图)的实验中,OmniGen展示了对这些条件的控制能力,并生成了与输入条件相似的图像。

尽管OmniGen在统一图像生成方面取得了显著的进展,但仍有一些限制和未来研究方向。

限制

  • 与现有的扩散模型一样,OmniGen对文本提示很敏感,通常需要详细的文本描述来生成高质量的图像。
  • OmniGen的文本渲染能力有限,能够处理短文本段,但不能准确生成长文本。
  • OmniGen生成的图像可能会包含错误的细节,尤其是小而精致的部分。
  • OmniGen不能处理未见过的图像类型(如用于表面法线估计的图像)。

未来研究方向

  • 通过在更多相关数据上训练模型来解决这些限制。
  • 探索OmniGen在其他图像生成任务和领域的应用。
  • 进一步优化OmniGen的架构和训练策略,以提高其性能和效率。

Paper: https://arxiv.org/pdf/2409.11340

目录
相关文章
|
10月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
608 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
11月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
1136 2
|
9月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
364 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
8月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
1136 0
|
8月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。
385 0
|
10月前
|
编解码 文字识别 自然语言处理
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
Dots.ocr 是一款仅1.7B参数的视觉语言模型,正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构,突破传统OCR多模块流水线的限制。在多项基准测试中,其表现超越大参数模型,展现出“小而精”的实用价值,标志着OCR技术向高效、统一、灵活方向演进。
939 0
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
|
11月前
|
存储 人工智能 调度
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
终端是实现数字智能和生命智能自由交互的重要接口,持续帮助人类拓展生产能力的边界。当下,终端智能面临着“能效-空间-智能”的不可能三角:以DeepSeek-R1为例,其参数规模高达6710亿,超出了大部分笔记本电脑的内存容量;即使勉强在一台笔记本电脑上成功运行满血版模型,理论上坚持不到9分钟就会耗尽电池;如果通过蒸馏,将满血版模型压缩到更小尺寸,此时的精度损失又可能满足不了智能水平的要求。
252 0
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
|
11月前
|
人工智能 监控 API
MCP中台,究竟如何实现多模型、多渠道、多环境的统一管控?如何以MCP为核心设计AI应用架构?
本文产品专家三桥君探讨了以 MCP 为核心的 AI 应用架构设计,从统一接入、数据管理、服务编排到部署策略等维度,系统化分析了 AI 落地的关键环节。重点介绍了 API 网关的多终端适配、数据异步处理流程、LLM 服务的灰度发布与 Fallback 机制,以及 MCP Server 作为核心枢纽的调度功能。同时对比了公有云 API、私有化 GPU 和无服务器部署的适用场景,强调通过全链路监控与智能告警保障系统稳定性。该架构为企业高效整合 AI 能力提供了实践路径,平衡性能、成本与灵活性需求。
689 0
|
12月前
|
存储 人工智能 前端开发
Google揭秘Agent架构三大核心:工具、模型与编排层实战指南
本文为Google发布的Agent白皮书全文翻译。本文揭示了智能体如何突破传统AI边界,通过模型、工具与编排层的三位一体架构,实现自主推理与现实交互。它不仅详解了ReAct、思维树等认知框架的运作逻辑,更通过航班预订、旅行规划等案例,展示了智能体如何调用Extensions、Functions和Data Stores,将抽象指令转化为真实世界操作。文中提出的“智能体链式组合”概念,预示了未来多智能体协作解决复杂问题的革命性潜力——这不仅是技术升级,更是AI赋能产业的范式颠覆。
3198 1