字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

简介: 【7月更文挑战第1天】新方法将图像转为1D token序列,减少计算复杂度,提高生成效率。在保持高画质(如gFID: 1.97 on ImageNet 256x256)的同时,TiTok比现有模型快410倍。虽有资源需求及token限制问题,但展示了图像处理的新方向。[论文链接](https://arxiv.org/abs/2406.07550)

生成高质量的图像是计算机视觉领域中一个重要的研究方向,而图像生成模型的性能和效率在很大程度上取决于图像的表示方法。在传统的图像生成模型中,图像通常被表示为像素矩阵,这会导致计算复杂度高、生成速度慢等问题。为了解决这些问题,研究人员提出了一种名为"Transformer-based 1-Dimensional Tokenizer"(TiTok)的图像表示方法,它将图像表示为1D的token序列,从而实现了更高效的图像生成。

TiTok的核心思想是将图像表示为1D的token序列,而不是传统的2D像素矩阵。具体来说,TiTok首先将图像划分为多个小区域,然后使用一个自注意力机制来计算每个区域的表示向量。这些表示向量被进一步处理,以生成一个固定长度的token序列,其中每个token表示图像中的一个特定特征或模式。

通过将图像表示为1D的token序列,TiTok能够有效地减少计算复杂度和生成时间。首先,1D的token序列比2D像素矩阵更紧凑,因为相邻的token通常表示相似的特征或模式,从而减少了冗余信息。其次,TiTok使用自注意力机制来计算每个区域的表示向量,这比传统的卷积神经网络更高效,因为自注意力机制能够并行地处理所有区域。

TiTok在图像生成任务上表现出了显著的性能优势。首先,TiTok能够生成高质量的图像,其生成的图像在视觉质量上与最先进的图像生成模型相当。其次,TiTok能够显著提高图像生成的效率,其生成速度比传统的图像生成模型快得多。

具体来说,TiTok在ImageNet 256 x 256数据集上的生成质量(gFID)为1.97,比MaskGIT基线提高了4.21。在ImageNet 512 x 512数据集上,TiTok的生成质量(gFID)为2.74,比最先进的扩散模型DiT-XL/2提高了0.30。此外,TiTok的生成速度也比DiT-XL/2快410倍。

尽管TiTok在图像生成任务上表现出了显著的性能优势,但它仍然存在一些局限性。首先,TiTok的生成质量可能受到token数量的限制,因为过少的token可能导致生成的图像过于模糊或不真实。其次,TiTok的自注意力机制可能对计算资源要求较高,这可能会限制其在资源受限的场景下的应用。

此外,TiTok的图像表示方法可能对某些特定的应用场景不适用。例如,在图像分类或目标检测等任务中,2D像素矩阵可能更适合表示图像的特征。因此,在实际应用中,我们需要根据任务的需求选择合适的图像表示方法。

论文链接:https://arxiv.org/abs/2406.07550

目录
相关文章
|
21天前
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
88 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
5月前
|
机器学习/深度学习 人工智能 计算机视觉
1890美元,就能从头训练一个还不错的12亿参数扩散模型
【8月更文挑战第22天】近期,索尼AI与加州大学河滨分校的研究者共同发表了一篇论文,介绍了一种在极低预算下训练大规模扩散模型的新方法。扩散模型常用于高质量图像生成,但高昂的训练成本往往构成障碍。研究团队通过实施“延迟掩码”策略,即训练时随机遮挡图像的大部分区域以减少计算需求,并利用轻量级块混合器预处理图像,显著降低了训练成本。他们仅花费1890美元便成功训练出拥有12亿参数的模型,该模型在COCO数据集上实现了12.7的FID分数,且成本远低于现有技术。尽管如此,该方法仍面临性能差距及合成数据偏见等挑战。
70 9
|
7月前
|
算法 测试技术 异构计算
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
|
7月前
|
人工智能 自然语言处理 测试技术
next-token被淘汰!Meta实测多token训练方法,推理提速3倍,性能大涨10%+
【6月更文挑战第11天】Meta AI的最新研究表明,多token训练方法能提升大型语言模型的性能和推理速度。与传统next-token预测相比,该方法让模型预测多个未来token,增强上下文理解和生成能力。实验显示,这种方法在代码生成、摘要生成和数学问题解答等任务上性能提升10%+,推理速度提升至原来的3倍,为模型部署提供了更优选择。论文链接:https://arxiv.org/pdf/2404.19737
106 1
|
8月前
|
存储 机器学习/深度学习 计算机视觉
字节开源大模型量化新思路,2-bit量化模型精度齐平fp16
【5月更文挑战第25天】字节跳动研究团队提出新型量化方法decoupleQ,实现2-bit量化模型与fp16/bf16同等精度。该方法通过参数分解,将量化转化为数学优化问题,简化处理并提高硬件兼容性。decoupleQ在大型语音模型上验证了其2-bit量化效果,降低了存储和计算成本,适用于资源受限环境。论文开源,为量化技术发展带来新视角。
211 4
|
编解码 vr&ar 计算机视觉
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
197 0
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
|
机器学习/深度学习 人工智能 自然语言处理
超越Transformer,清华、字节大幅刷新并行文本生成SoTA性能|ICML 2022
超越Transformer,清华、字节大幅刷新并行文本生成SoTA性能|ICML 2022
177 0
超越Transformer,清华、字节大幅刷新并行文本生成SoTA性能|ICML 2022
|
人工智能 安全 自动驾驶
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
133 0
|
人工智能 自然语言处理 otter
3.6万亿token、3400亿参数,谷歌大模型PaLM 2细节遭曝光
3.6万亿token、3400亿参数,谷歌大模型PaLM 2细节遭曝光
423 0
|
人工智能 自然语言处理 机器人
ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成
ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成
172 0