Meta首发变色龙挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA-阿里云开发者社区

Meta首发变色龙挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

2024-05-28 399

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon，通过早期融合技术处理图像和文本，实现全面的多模态建模。在10万亿token的训练数据下，Chameleon在图像字幕生成和文本推理任务中刷新SOTA，展现出在混合模态生成和推理的潜力。然而，模型可能无法完全捕捉图像语义信息，且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)

Meta最近发布了一款名为Chameleon的新型多模态模型，该模型在多模态生成和理解方面展示了卓越的性能，有望引领多模态领域的革命。Chameleon是一个基于早期融合的混合模态模型，旨在理解和生成图像和文本，并能够以任意顺序处理它们。

Chameleon的独特之处在于它能够将图像和文本视为等价的离散令牌，并使用统一的Transformer架构对它们进行处理。这种早期融合的方法使得Chameleon能够无缝地在模态之间进行推理和生成，从而实现全面的多模态文档建模。

为了训练Chameleon，Meta使用了超过10万亿个令牌的混合模态数据，包括图像、文本和代码。这种大规模的训练数据使得Chameleon能够学习到丰富的多模态表示，并具备广泛的能力。

在广泛的评估中，Chameleon展示了其在多模态任务上的卓越性能。在图像字幕生成任务中，Chameleon实现了最先进的性能，超过了其他模型如Flamingo、IDEFICS和Llava-1.5。同时，Chameleon在文本生成任务上也表现出色，在常识推理和阅读理解等任务上与Mixtral 8x7B和Gemini-Pro等模型相当。

此外，Chameleon还展示了其在混合模态生成和推理方面的潜力。在一项针对混合模态长文本生成的人类评估实验中，Chameleon-34B在与Gemini-Pro和GPT-4V等强大基线的比较中表现出色，分别获得了60.4％和51.6％的偏好率。

然而，尽管Chameleon在多模态生成和理解方面表现出色，但也存在一些挑战和限制。首先，将图像和文本视为等价的离散令牌的方法可能无法捕捉到图像的丰富语义信息，从而限制了模型在图像理解和生成方面的能力。其次，尽管Chameleon在多模态任务上实现了最先进的性能，但在一些特定任务上可能仍然存在改进的空间。

论文地址：https://arxiv.org/pdf/2405.09818

Meta首发变色龙挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Meta首发变色龙挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

热门文章

最新文章

相关课程

相关电子书

相关实验场景