1890美元,就能从头训练一个还不错的12亿参数扩散模型

简介: 【8月更文挑战第22天】近期,索尼AI与加州大学河滨分校的研究者共同发表了一篇论文,介绍了一种在极低预算下训练大规模扩散模型的新方法。扩散模型常用于高质量图像生成,但高昂的训练成本往往构成障碍。研究团队通过实施“延迟掩码”策略,即训练时随机遮挡图像的大部分区域以减少计算需求,并利用轻量级块混合器预处理图像,显著降低了训练成本。他们仅花费1890美元便成功训练出拥有12亿参数的模型,该模型在COCO数据集上实现了12.7的FID分数,且成本远低于现有技术。尽管如此,该方法仍面临性能差距及合成数据偏见等挑战。

最近,一篇名为《Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget》的论文引起了广泛关注。这篇论文由来自索尼AI和加州大学河滨分校的研究人员合作完成,他们提出了一种创新的方法,使得在微预算下从头训练大型扩散模型成为可能。

扩散模型是一类用于生成高质量图像的深度学习模型。然而,训练这些模型通常需要大量的计算资源和时间,这对于大多数研究人员和小型团队来说是难以承受的。为了解决这个问题,研究人员提出了一种名为"微预算训练"的方法,旨在降低扩散模型的训练成本。

论文中提出了一种名为"延迟掩码"的策略,该策略通过在训练过程中随机掩码图像的大部分区域来减少计算成本。具体来说,他们建议在每个图像中随机掩码高达75%的区域。为了减少掩码对性能的影响,他们提出了一种延迟掩码策略,该策略在掩码之前使用一个轻量级的块混合器来预处理所有块。

此外,论文还介绍了如何将最新的改进融入到Transformer架构中,如使用专家混合层来提高性能。他们还研究了在微预算训练中使用合成图像的好处。

研究人员使用仅有的3700万张公开可用的真实和合成图像,训练了一个12亿参数的稀疏Transformer,总成本仅为1890美元。令人印象深刻的是,他们的模型在零样本生成方面在COCO数据集上取得了12.7的FID分数,这表明它在生成高质量图像方面具有竞争力。

此外,他们的模型在训练成本方面也表现出色,比稳定的扩散模型低118倍,比目前最先进的方法低14倍。

尽管这项研究取得了令人印象深刻的成果,但也有一些潜在的局限性需要考虑。首先,虽然他们的模型在生成高质量图像方面表现出色,但与更昂贵的模型相比,它的性能可能仍然存在差距。其次,使用合成图像进行训练可能会引入一些偏差,这可能会影响模型在真实世界数据上的性能。

论文地址:https://arxiv.org/pdf/2407.15811

目录
相关文章
|
5月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
87 1
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|
8月前
|
人工智能
ChatGPT能预测未来特定事件,准确率高达97%
【4月更文挑战第30天】贝勒大学经济学家Pham Hoang Van和Scott Cunningham的研究发现,ChatGPT-4使用未来叙事提示预测2022年事件的准确率高达97%。在预测奥斯卡奖项和经济趋势时,这种方法尤为有效。研究揭示了大型语言模型的预测潜力,但也指出其局限性,如时间范围、提示策略多样性和潜在偏见。论文链接:[arxiv.org/abs/2404.07396](https://arxiv.org/abs/2404.07396)
67 2
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
2万亿训练数据,120亿参数!开源大模型Stable LM 2-12B
【4月更文挑战第19天】Stability AI团队推出了120亿参数、2万亿训练数据的Stable LM 2-12B语言模型,成为公开模型的新标杆。该模型采用Transformer架构,支持多语言处理,并公开训练细节,促进AI技术发展。然而,其大规模带来资源需求增加及准确性的挑战,需关注模型优化、输出可靠性及地域文化适应性。
99 1
|
编解码 vr&ar 计算机视觉
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
195 0
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
|
机器学习/深度学习 数据可视化 索引
斯坦福训练Transformer替代模型:1.7亿参数,能除偏、可控可解释性强
斯坦福训练Transformer替代模型:1.7亿参数,能除偏、可控可解释性强
148 2
|
存储 机器学习/深度学习 编解码
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
208 0
|
机器学习/深度学习 数据采集 人工智能
放弃Softmax,首个线性注意力Transformer大模型:1750亿参数,速度、精度更优
放弃Softmax,首个线性注意力Transformer大模型:1750亿参数,速度、精度更优
124 0
|
人工智能 安全 自动驾驶
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
128 0
|
存储 缓存 API
ChatGPT模型参数≠1750亿,有人用反证法进行了证明
ChatGPT模型参数≠1750亿,有人用反证法进行了证明
186 0

热门文章

最新文章