新扩散模型OmniGen一统图像生成,架构还高度简化、易用

简介: 近期,一篇题为“OmniGen: Unified Image Generation”的论文介绍了一种新型扩散模型OmniGen,旨在统一图像生成任务。OmniGen架构简洁,无需额外模块即可处理多种任务,如文本到图像生成、图像编辑等。该模型通过修正流优化,展现出与现有模型相当或更优的性能,尤其在图像编辑和视觉条件生成方面表现突出。OmniGen仅含3.8亿参数,却能有效处理复杂任务,简化工作流程。尽管如此,OmniGen仍存在对文本提示敏感、文本渲染能力有限等问题,未来研究将继续优化其架构与功能。

近年来,大型语言模型(LLMs)在统一语言生成任务方面取得了显著成就,彻底改变了人机交互的方式。然而,在图像生成领域,一个能够处理各种任务的统一模型仍然是一个未被充分探索的领域。最近,一篇名为"OmniGen: Unified Image Generation"的论文提出了一种名为OmniGen的新扩散模型,旨在统一图像生成任务。

OmniGen的主要创新之处在于其架构的高度简化和易用性,以及其能够处理各种图像生成任务的能力。与现有的扩散模型(如Stable Diffusion)不同,OmniGen不需要额外的模块(如ControlNet或IP-Adapter)来处理不同的控制条件。

OmniGen不仅展示了文本到图像的生成能力,还能够支持各种下游任务,如图像编辑、主体驱动生成和视觉条件生成。此外,OmniGen还能够通过将它们转化为图像生成任务来处理经典的计算机视觉任务,如边缘检测和人体姿态识别。

OmniGen的架构非常简洁,消除了对额外文本编码器的需求。与现有的扩散模型相比,OmniGen更加用户友好,使复杂的任务能够通过指令完成,而不需要额外的预处理步骤(如人体姿态估计),从而大大简化了图像生成的工作流程。

由于在统一格式下进行学习,OmniGen能够有效地在不同的场景之间转移知识,处理未见过的任务和领域,并展示出新的能力。

OmniGen的架构由两个主要组件组成:一个变分自编码器(VAE)和一个预训练的大型Transformer模型。VAE用于从图像中提取连续的视觉特征,而Transformer模型则根据输入条件生成图像。

在输入方面,OmniGen可以接受任意形式的图像和文本输入,以支持各种任务。对于文本输入,OmniGen使用Phi-3的tokenizer进行处理,而对于图像输入,OmniGen使用一个简单的线性层将它们转换为潜在表示,然后使用线性嵌入将每个补丁转换为视觉标记。

在注意力机制方面,OmniGen修改了LLM中的常见因果注意力机制,将其与双向注意力结合使用。具体来说,OmniGen对序列中的每个元素应用因果注意力,但对每个图像序列内的元素应用双向注意力。这允许每个补丁关注同一图像中的其他补丁,同时确保每个图像只能关注之前出现的其他图像或文本序列。

OmniGen使用修正流(rectified flow)来优化模型参数。与DDPM(Denoising Diffusion Probabilistic Models)不同,修正流通过在噪声和数据之间进行线性插值来进行前向过程。OmniGen被训练为根据噪声数据、时间步长和条件信息直接回归目标速度。

在图像编辑任务中,OmniGen面临的一个挑战是模型可能会学习到一个意外的捷径,即简单地复制输入图像作为输出,以使相关的训练损失非常低。为了解决这个问题,OmniGen通过放大图像中发生变化的区域的损失来引导模型关注需要修改的区域。

OmniGen在多个图像生成任务上进行了评估,包括文本到图像生成、图像编辑、主体驱动生成和视觉条件控制。在所有这些任务上,OmniGen都展示了与现有模型相当或更好的性能。

在GenEval基准测试中,OmniGen与现有的图像生成模型进行了比较,并展示了与当前最先进的扩散模型相当的性能。值得注意的是,OmniGen只有3.8亿个参数,而SD3模型有12.7亿个参数。

在EMU-Edit数据集上,OmniGen与现有的图像编辑模型进行了比较,并展示了与当前最先进的模型相当的性能。

在DreamBench数据集上,OmniGen展示了比基于微调的方法更好的主体保真度和文本保真度。

在使用不同视觉条件(如分割掩码、Canny边缘地图、HED边缘地图和深度地图)的实验中,OmniGen展示了对这些条件的控制能力,并生成了与输入条件相似的图像。

尽管OmniGen在统一图像生成方面取得了显著的进展,但仍有一些限制和未来研究方向。

限制

  • 与现有的扩散模型一样,OmniGen对文本提示很敏感,通常需要详细的文本描述来生成高质量的图像。
  • OmniGen的文本渲染能力有限,能够处理短文本段,但不能准确生成长文本。
  • OmniGen生成的图像可能会包含错误的细节,尤其是小而精致的部分。
  • OmniGen不能处理未见过的图像类型(如用于表面法线估计的图像)。

未来研究方向

  • 通过在更多相关数据上训练模型来解决这些限制。
  • 探索OmniGen在其他图像生成任务和领域的应用。
  • 进一步优化OmniGen的架构和训练策略,以提高其性能和效率。

Paper: https://arxiv.org/pdf/2409.11340

目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 分布式计算
大规模语言模型与生成模型:技术原理、架构与应用
本文深入探讨了大规模语言模型(LLMs)和生成模型的技术原理、经典架构及应用。介绍了LLMs的关键特点,如海量数据训练、深层架构和自监督学习,以及常见模型如GPT、BERT和T5。同时,文章详细解析了生成模型的工作原理,包括自回归模型、自编码器和GANs,并讨论了这些模型在自然语言生成、机器翻译、对话系统和数据增强等领域的应用。最后,文章展望了未来的发展趋势,如模型压缩、跨模态生成和多语言多任务学习。
323 3
|
10天前
|
机器学习/深度学习 计算机视觉
Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT
北京大学和华为研究人员提出U-shaped Diffusion Transformers(U-DiTs),重新审视U-Net架构在扩散模型中的潜力。通过引入Token Downsampling方法,U-DiTs在ImageNet 256x256和512x512生成任务中显著提升性能并降低计算成本。实验表明,U-DiT模型不仅超越了DiT模型的性能,在计算效率上也更具优势。论文地址:https://arxiv.org/pdf/2405.02730
63 43
|
1天前
|
自然语言处理 算法 JavaScript
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
多LLM摘要框架通过生成和评估两个步骤处理长文档,支持集中式和分散式两种策略。每个LLM独立生成文本摘要,集中式方法由单一LLM评估并选择最佳摘要,而分散式方法则由多个LLM共同评估,达成共识。论文提出两阶段流程:先分块摘要,再汇总生成最终摘要。实验结果显示,多LLM框架显著优于单LLM基准,性能提升最高达3倍,且仅需少量LLM和一轮生成评估即可获得显著效果。
24 9
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
|
16天前
|
机器学习/深度学习 编解码 vr&ar
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。
87 8
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
|
6天前
|
搜索推荐 架构师 数据挖掘
架构实操:画好一张业务模型图
本文以SDK设计的角度分析了如何构建一张属于SDK的各个业务的模型图。
|
1月前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41538 20
|
2月前
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
256 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
2月前
|
网络协议 网络架构
TCP/IP协议架构:四层模型详解
在网络通信的世界里,TCP/IP协议栈是构建现代互联网的基础。本文将深入探讨TCP/IP协议涉及的四层架构,以及每一层的关键功能和作用。
259 5
|
2月前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型演进与经典架构
本文探讨了AI计算模式对AI芯片设计的重要性,通过分析经典模型结构设计与演进、模型量化与压缩等核心内容,揭示了神经网络模型的发展现状及优化方向。文章详细介绍了神经网络的基本组件、主流模型结构、以及模型量化和剪枝技术,强调了这些技术在提高模型效率、降低计算和存储需求方面的关键作用。基于此,提出了AI芯片设计应考虑支持神经网络计算逻辑、高维张量存储与计算、灵活的软件配置接口、不同bit位数的计算单元和存储格式等建议,以适应不断发展的AI技术需求。
59 5
|
1月前
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。

热门文章

最新文章