抛弃视觉编码器,这个原生版多模态大模型也能媲美主流方法

简介: 【8月更文挑战第4天】在AI领域,多模态大模型(VLMs)融合视觉与语言处理,但现有模型多依赖视觉编码器,限制了灵活性与效率。为解决此问题,研究者开发出不依赖编码器的VLMs,提出一种高效训练方案,通过统一解码器内部桥接视觉-语言表示,并引入额外监督增强视觉识别能力。基于此,开发出EVE模型,在多个基准测试中表现出色,仅用3500万公开数据即可媲美甚至超越传统模型。尽管如此,EVE仍面临计算资源需求高及数据质量等挑战。这一突破引发了对未来VLM发展方向的讨论。[论文链接: https://arxiv.org/abs/2406.11832]

在人工智能领域,多模态大模型(VLMs)已经成为处理视觉和语言任务的重要工具。然而,现有的VLMs大多依赖于视觉编码器来提取视觉特征,然后使用大型语言模型(LLMs)来完成视觉-语言任务。这种依赖性为VLMs的灵活性和效率带来了一定的限制,因为视觉编码器在抽象视觉表示方面引入了强烈的归纳偏置,如分辨率、长宽比和语义先验。

为了解决这个问题,研究人员一直在探索训练纯粹的VLMs,即不依赖视觉编码器的VLMs。然而,直接训练没有编码器的VLMs面临着巨大的挑战,并且很少有研究涉及。经验观察表明,没有编码器的直接训练会导致收敛缓慢和性能差距较大。

为了填补编码器基模型和无编码器模型之间的差距,并推动纯粹VLMs的发展,研究人员提出了一种简单而有效的训练方案。通过广泛的实验,他们揭示了高效训练无编码器VLMs的关键方面:

1.在统一的解码器内部桥接视觉-语言表示:研究人员发现,通过在统一的解码器内部桥接视觉和语言表示,可以提高VLMs的灵活性和效率。这种桥接使得VLMs能够直接处理视觉和语言输入,而无需依赖视觉编码器。

2.通过额外的监督增强视觉识别能力:为了进一步提高VLMs的性能,研究人员引入了额外的监督信号来增强模型的视觉识别能力。这包括使用额外的数据集和任务来训练模型,以使其能够更好地理解和处理视觉信息。

基于这些策略,研究人员开发了一种名为EVE的无编码器VLM。EVE能够高效地进行训练和推理,并在多个视觉-语言基准测试中表现出色。值得注意的是,EVE仅使用3500万个公开可用的数据,就能够与具有类似容量的编码器基VLMs相媲美,甚至在某些任务上超越了它们。

然而,尽管EVE在无编码器VLMs的训练方面取得了显著的进展,但仍存在一些挑战和限制。首先,EVE的训练过程可能需要更多的计算资源和时间,因为没有视觉编码器的帮助,模型需要从头开始学习视觉表示。其次,EVE的性能可能受到可用数据质量和数量的限制,因为高质量的视觉-语言数据集仍然相对较少。

此外,EVE的成功也引发了一些关于VLMs未来发展方向的讨论。一些人认为,无编码器VLMs代表了多模态学习的未来,因为它们具有更好的灵活性和可扩展性。然而,另一些人则认为,编码器基VLMs仍然具有重要的优势,如更好的性能和更广泛的应用领域。

论文地址: https://arxiv.org/abs/2406.11832

目录
相关文章
|
6月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
6月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
570 121
|
6月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
359 113
|
6月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
430 114
|
6月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
626 117
|
8月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
841 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
1070 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

热门文章

最新文章