抛弃视觉编码器，这个原生版多模态大模型也能媲美主流方法-阿里云开发者社区

抛弃视觉编码器，这个原生版多模态大模型也能媲美主流方法

2024-08-04 94

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第4天】在AI领域，多模态大模型(VLMs)融合视觉与语言处理，但现有模型多依赖视觉编码器，限制了灵活性与效率。为解决此问题，研究者开发出不依赖编码器的VLMs，提出一种高效训练方案，通过统一解码器内部桥接视觉-语言表示，并引入额外监督增强视觉识别能力。基于此，开发出EVE模型，在多个基准测试中表现出色，仅用3500万公开数据即可媲美甚至超越传统模型。尽管如此，EVE仍面临计算资源需求高及数据质量等挑战。这一突破引发了对未来VLM发展方向的讨论。[论文链接: https://arxiv.org/abs/2406.11832]

在人工智能领域，多模态大模型（VLMs）已经成为处理视觉和语言任务的重要工具。然而，现有的VLMs大多依赖于视觉编码器来提取视觉特征，然后使用大型语言模型（LLMs）来完成视觉-语言任务。这种依赖性为VLMs的灵活性和效率带来了一定的限制，因为视觉编码器在抽象视觉表示方面引入了强烈的归纳偏置，如分辨率、长宽比和语义先验。

为了解决这个问题，研究人员一直在探索训练纯粹的VLMs，即不依赖视觉编码器的VLMs。然而，直接训练没有编码器的VLMs面临着巨大的挑战，并且很少有研究涉及。经验观察表明，没有编码器的直接训练会导致收敛缓慢和性能差距较大。

为了填补编码器基模型和无编码器模型之间的差距，并推动纯粹VLMs的发展，研究人员提出了一种简单而有效的训练方案。通过广泛的实验，他们揭示了高效训练无编码器VLMs的关键方面：

1.在统一的解码器内部桥接视觉-语言表示：研究人员发现，通过在统一的解码器内部桥接视觉和语言表示，可以提高VLMs的灵活性和效率。这种桥接使得VLMs能够直接处理视觉和语言输入，而无需依赖视觉编码器。

2.通过额外的监督增强视觉识别能力：为了进一步提高VLMs的性能，研究人员引入了额外的监督信号来增强模型的视觉识别能力。这包括使用额外的数据集和任务来训练模型，以使其能够更好地理解和处理视觉信息。

基于这些策略，研究人员开发了一种名为EVE的无编码器VLM。EVE能够高效地进行训练和推理，并在多个视觉-语言基准测试中表现出色。值得注意的是，EVE仅使用3500万个公开可用的数据，就能够与具有类似容量的编码器基VLMs相媲美，甚至在某些任务上超越了它们。

然而，尽管EVE在无编码器VLMs的训练方面取得了显著的进展，但仍存在一些挑战和限制。首先，EVE的训练过程可能需要更多的计算资源和时间，因为没有视觉编码器的帮助，模型需要从头开始学习视觉表示。其次，EVE的性能可能受到可用数据质量和数量的限制，因为高质量的视觉-语言数据集仍然相对较少。

此外，EVE的成功也引发了一些关于VLMs未来发展方向的讨论。一些人认为，无编码器VLMs代表了多模态学习的未来，因为它们具有更好的灵活性和可扩展性。然而，另一些人则认为，编码器基VLMs仍然具有重要的优势，如更好的性能和更广泛的应用领域。

论文地址: https://arxiv.org/abs/2406.11832

抛弃视觉编码器，这个原生版多模态大模型也能媲美主流方法

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

抛弃视觉编码器，这个原生版多模态大模型也能媲美主流方法

热门文章

最新文章

相关课程

相关电子书

相关实验场景