最近,一篇名为《Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget》的论文引起了广泛关注。这篇论文由来自索尼AI和加州大学河滨分校的研究人员合作完成,他们提出了一种创新的方法,使得在微预算下从头训练大型扩散模型成为可能。
扩散模型是一类用于生成高质量图像的深度学习模型。然而,训练这些模型通常需要大量的计算资源和时间,这对于大多数研究人员和小型团队来说是难以承受的。为了解决这个问题,研究人员提出了一种名为"微预算训练"的方法,旨在降低扩散模型的训练成本。
论文中提出了一种名为"延迟掩码"的策略,该策略通过在训练过程中随机掩码图像的大部分区域来减少计算成本。具体来说,他们建议在每个图像中随机掩码高达75%的区域。为了减少掩码对性能的影响,他们提出了一种延迟掩码策略,该策略在掩码之前使用一个轻量级的块混合器来预处理所有块。
此外,论文还介绍了如何将最新的改进融入到Transformer架构中,如使用专家混合层来提高性能。他们还研究了在微预算训练中使用合成图像的好处。
研究人员使用仅有的3700万张公开可用的真实和合成图像,训练了一个12亿参数的稀疏Transformer,总成本仅为1890美元。令人印象深刻的是,他们的模型在零样本生成方面在COCO数据集上取得了12.7的FID分数,这表明它在生成高质量图像方面具有竞争力。
此外,他们的模型在训练成本方面也表现出色,比稳定的扩散模型低118倍,比目前最先进的方法低14倍。
尽管这项研究取得了令人印象深刻的成果,但也有一些潜在的局限性需要考虑。首先,虽然他们的模型在生成高质量图像方面表现出色,但与更昂贵的模型相比,它的性能可能仍然存在差距。其次,使用合成图像进行训练可能会引入一些偏差,这可能会影响模型在真实世界数据上的性能。