Meta最近发布了一款名为Chameleon的新型多模态模型,该模型在多模态生成和理解方面展示了卓越的性能,有望引领多模态领域的革命。Chameleon是一个基于早期融合的混合模态模型,旨在理解和生成图像和文本,并能够以任意顺序处理它们。
Chameleon的独特之处在于它能够将图像和文本视为等价的离散令牌,并使用统一的Transformer架构对它们进行处理。这种早期融合的方法使得Chameleon能够无缝地在模态之间进行推理和生成,从而实现全面的多模态文档建模。
为了训练Chameleon,Meta使用了超过10万亿个令牌的混合模态数据,包括图像、文本和代码。这种大规模的训练数据使得Chameleon能够学习到丰富的多模态表示,并具备广泛的能力。
在广泛的评估中,Chameleon展示了其在多模态任务上的卓越性能。在图像字幕生成任务中,Chameleon实现了最先进的性能,超过了其他模型如Flamingo、IDEFICS和Llava-1.5。同时,Chameleon在文本生成任务上也表现出色,在常识推理和阅读理解等任务上与Mixtral 8x7B和Gemini-Pro等模型相当。
此外,Chameleon还展示了其在混合模态生成和推理方面的潜力。在一项针对混合模态长文本生成的人类评估实验中,Chameleon-34B在与Gemini-Pro和GPT-4V等强大基线的比较中表现出色,分别获得了60.4%和51.6%的偏好率。
然而,尽管Chameleon在多模态生成和理解方面表现出色,但也存在一些挑战和限制。首先,将图像和文本视为等价的离散令牌的方法可能无法捕捉到图像的丰富语义信息,从而限制了模型在图像理解和生成方面的能力。其次,尽管Chameleon在多模态任务上实现了最先进的性能,但在一些特定任务上可能仍然存在改进的空间。