Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT

简介: 北京大学和华为研究人员提出U-shaped Diffusion Transformers(U-DiTs),重新审视U-Net架构在扩散模型中的潜力。通过引入Token Downsampling方法,U-DiTs在ImageNet 256x256和512x512生成任务中显著提升性能并降低计算成本。实验表明,U-DiT模型不仅超越了DiT模型的性能,在计算效率上也更具优势。论文地址:https://arxiv.org/pdf/2405.02730

在图像生成领域,扩散模型因其卓越的性能和可扩展性而备受瞩目。然而,尽管Diffusion Transformers(DiTs)等模型在生成任务中表现出色,但它们却摒弃了U-Net架构,这一在先前工作中被广泛采用的架构。对此,北京大学和华为的研究人员提出了U-shaped Diffusion Transformers(U-DiTs),旨在重新审视U-Net架构在扩散模型中的潜力。

U-Net架构在图像分割和生成任务中一直扮演着重要角色,其独特的编码器-解码器结构以及跳跃连接设计,使得它在处理图像数据时具有天然的优势。然而,在扩散模型的领域中,U-Net架构却逐渐被边缘化,取而代之的是更为简洁的同构架构。

北大与华为的研究人员对此现象进行了深入的思考和探索。他们首先进行了一个简单的实验,将DiT块嵌入到一个典型的U-Net架构中,形成了DiT-UNet。通过与同构DiT的比较,他们发现DiT-UNet在相似的计算成本下,性能仅略优于DiT。这表明,简单地将U-Net与Transformer块结合,并不能充分发挥U-Net的归纳偏置优势。

为了更好地将Transformer的注意力机制与U-Net架构相结合,研究人员对U-Net作为扩散去噪器的角色进行了重新审视。他们发现,U-Net骨干网络的特征在低频域中占主导地位,这暗示了骨干特征中可能存在冗余。基于这一发现,他们提出了一种名为Token Downsampling的创新方法。

Token Downsampling的核心思想是通过下采样操作来过滤高频噪声,从而突出低频域的特征。与之前仅对键值对进行下采样的方法不同,研究人员采取了更为激进的策略,同时对查询、键和值进行下采样。这种做法不仅减少了计算成本,还避免了信息损失。

通过将Token Downsampling与DiT-UNet相结合,研究人员取得了令人惊喜的结果。在ImageNet 256x256的生成任务中,他们提出的U-DiT模型在FID指标上取得了显著的改进,同时计算成本也大幅降低。

基于Token Downsampling的发现,研究人员进一步扩展了U-Net架构,提出了一系列的U-DiT模型。这些模型在ImageNet 256x256和512x512的生成任务中,都展现出了卓越的性能。

在ImageNet 256x256的生成任务中,U-DiT-B模型仅用六分之一的计算成本,就超越了DiT-XL/2模型的性能。而在ImageNet 512x512的生成任务中,U-DiT-B模型也以更低的计算成本,取得了更好的性能。

这些结果表明,U-DiT模型不仅在性能上超越了之前的DiT模型,而且在计算效率上也具有显著的优势。这对于实际应用中的图像生成任务来说,具有重要的意义。

U-DiT模型的提出,为扩散模型的发展注入了新的活力。它不仅重新审视了U-Net架构在扩散模型中的潜力,还通过Token Downsampling等创新方法,实现了性能和计算效率的双重提升。

然而,U-DiT模型也存在一些潜在的挑战和限制。首先,由于计算资源的限制,研究人员无法进一步扩展训练迭代次数和模型规模,以充分探索U-DiT的潜力。其次,由于训练数据集的偏见,生成的内容可能包含色情、种族主义、仇恨和暴力等信息。虽然研究人员强调了通过谨慎应用来减轻滥用风险,但这仍然是一个需要关注的问题。

论文地址:https://arxiv.org/pdf/2405.02730

目录
相关文章
|
1月前
|
机器学习/深度学习 编解码 vr&ar
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。
170 8
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
|
2月前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41552 20
|
2月前
|
机器学习/深度学习 测试技术 定位技术
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
近期,一篇题为“OmniGen: Unified Image Generation”的论文介绍了一种新型扩散模型OmniGen,旨在统一图像生成任务。OmniGen架构简洁,无需额外模块即可处理多种任务,如文本到图像生成、图像编辑等。该模型通过修正流优化,展现出与现有模型相当或更优的性能,尤其在图像编辑和视觉条件生成方面表现突出。OmniGen仅含3.8亿参数,却能有效处理复杂任务,简化工作流程。尽管如此,OmniGen仍存在对文本提示敏感、文本渲染能力有限等问题,未来研究将继续优化其架构与功能。
86 16
|
3月前
|
人工智能 运维 算法
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
|
5月前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
108 3
|
5月前
|
机器学习/深度学习 数据采集
详解Diffusion扩散模型:理论、架构与实现
【9月更文挑战第23天】扩散模型(Diffusion Models)是一类基于随机过程的深度学习模型,通过逐步加噪和去噪实现图像生成,在此领域表现优异。模型分正向扩散和反向生成两阶段:前者从真实数据加入噪声至完全噪音,后者则学习从噪声中恢复数据,经由反向过程逐步还原生成清晰图像。其主要架构采用U-net神经网络,实现过程中需数据预处理及高斯噪声添加等步骤,最终通过模型逆向扩散生成新数据,具有广泛应用前景。
193 0
|
6月前
|
人工智能 自然语言处理
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
【8月更文挑战第6天】华为GTS提出LocMoE+,一种高可扩展性Mixture-of-Experts架构,通过亲和度路由策略高效分配任务,自适应调整专家容量优化资源利用,并采用通信优化技术减少开销,实现在保证性能的同时大幅提升训练效率和推理速度,尤其在多节点集群环境下优势明显。
78 1
|
9月前
|
机器学习/深度学习 存储 人工智能
一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法
【4月更文挑战第19天】北京大学林宙辰团队在深度学习领域取得突破,提出基于一阶优化算法的神经网络设计方法,构建具有万有逼近性质的模型,提升训练速度和泛化能力。该方法利用一阶导数信息,高效处理大规模问题。虽然面临非光滑优化和收敛速度挑战,但团队通过正则化和自适应学习率等策略进行改进,相关研究在多个标准数据集上表现出色。
120 1
|
9月前
|
Android开发
Android Jetpack架构开发组件化应用实战,字节跳动+阿里+华为+腾讯等大厂Android面试题
Android Jetpack架构开发组件化应用实战,字节跳动+阿里+华为+腾讯等大厂Android面试题
|
9月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。

热门文章

最新文章