在人工智能领域,图像生成技术一直是研究的热点之一。近期,华为诺亚方舟实验室发布了一款名为PixArt-Σ的新型文本到图像(T2I)生成模型,该模型基于Diffusion Transformer(DiT)架构,能够直接生成4K分辨率的高清图像。这一技术的进步不仅提升了图像生成的质量,也为AI生成内容(AIGC)领域带来了新的可能。
PixArt-Σ模型是在前一代PixArt-α模型的基础上进行改进的。与前代相比,PixArt-Σ在图像的保真度和与文本提示的对齐度上都有显著提升。这种提升得益于PixArt-Σ的“弱到强训练”过程,即通过整合更高质量的数据,使得模型从较弱的基线版本进化到更强的版本。这种训练方式的关键在于,它能够在保持模型参数数量较小(0.6B参数)的情况下,实现比现有文本到图像扩散模型更优的图像质量和更好的用户提示遵循能力。
PixArt-Σ模型的改进主要体现在两个方面。首先,它引入了高质量的训练数据,这些数据包括33M张高分辨率图像,这些图像不仅分辨率高,而且风格多样,艺术性强。其次,PixArt-Σ提出了一种高效的标记压缩方法,通过在DiT框架内引入新的注意力模块来压缩键值对,从而显著提高了模型的运行效率,并促进了超高分辨率图像的生成。
在实验中,PixArt-Σ展现了出色的性能。它能够直接生成4K分辨率的高质量图像,而且无需后期处理。更重要的是,PixArt-Σ能够准确响应用户提供的复杂、详细和长文本提示,这在以往的模型中是难以实现的。在与当前最先进的T2I模型的比较中,PixArt-Σ不仅在图像质量上不逊色,而且在遵循用户指令的能力上也表现出色,能够与商业产品如Adobe Firefly 2、Google Imagen 2、OpenAI Dalle3和Midjourney V6相媲美。
PixArt-Σ的推出,对于AIGC社区来说无疑是一大进步。它不仅展示了在有限资源下如何有效地整合新元素到现有模型中,实现更强大的版本,也为获取更高效、高质量的生成模型提供了新的思路。然而,尽管PixArt-Σ在图像生成领域取得了显著的成就,但仍有改进的空间。例如,模型的训练过程仍然需要大量的计算资源,这可能会限制其在资源受限的环境中的应用。此外,虽然PixArt-Σ在图像质量和文本对齐度上有所提升,但在处理某些复杂场景时,仍然存在一定的挑战。