抛弃视觉编码器,这个原生版多模态大模型也能媲美主流方法

简介: 【8月更文挑战第4天】在AI领域,多模态大模型(VLMs)融合视觉与语言处理,但现有模型多依赖视觉编码器,限制了灵活性与效率。为解决此问题,研究者开发出不依赖编码器的VLMs,提出一种高效训练方案,通过统一解码器内部桥接视觉-语言表示,并引入额外监督增强视觉识别能力。基于此,开发出EVE模型,在多个基准测试中表现出色,仅用3500万公开数据即可媲美甚至超越传统模型。尽管如此,EVE仍面临计算资源需求高及数据质量等挑战。这一突破引发了对未来VLM发展方向的讨论。[论文链接: https://arxiv.org/abs/2406.11832]

在人工智能领域,多模态大模型(VLMs)已经成为处理视觉和语言任务的重要工具。然而,现有的VLMs大多依赖于视觉编码器来提取视觉特征,然后使用大型语言模型(LLMs)来完成视觉-语言任务。这种依赖性为VLMs的灵活性和效率带来了一定的限制,因为视觉编码器在抽象视觉表示方面引入了强烈的归纳偏置,如分辨率、长宽比和语义先验。

为了解决这个问题,研究人员一直在探索训练纯粹的VLMs,即不依赖视觉编码器的VLMs。然而,直接训练没有编码器的VLMs面临着巨大的挑战,并且很少有研究涉及。经验观察表明,没有编码器的直接训练会导致收敛缓慢和性能差距较大。

为了填补编码器基模型和无编码器模型之间的差距,并推动纯粹VLMs的发展,研究人员提出了一种简单而有效的训练方案。通过广泛的实验,他们揭示了高效训练无编码器VLMs的关键方面:

1.在统一的解码器内部桥接视觉-语言表示:研究人员发现,通过在统一的解码器内部桥接视觉和语言表示,可以提高VLMs的灵活性和效率。这种桥接使得VLMs能够直接处理视觉和语言输入,而无需依赖视觉编码器。

2.通过额外的监督增强视觉识别能力:为了进一步提高VLMs的性能,研究人员引入了额外的监督信号来增强模型的视觉识别能力。这包括使用额外的数据集和任务来训练模型,以使其能够更好地理解和处理视觉信息。

基于这些策略,研究人员开发了一种名为EVE的无编码器VLM。EVE能够高效地进行训练和推理,并在多个视觉-语言基准测试中表现出色。值得注意的是,EVE仅使用3500万个公开可用的数据,就能够与具有类似容量的编码器基VLMs相媲美,甚至在某些任务上超越了它们。

然而,尽管EVE在无编码器VLMs的训练方面取得了显著的进展,但仍存在一些挑战和限制。首先,EVE的训练过程可能需要更多的计算资源和时间,因为没有视觉编码器的帮助,模型需要从头开始学习视觉表示。其次,EVE的性能可能受到可用数据质量和数量的限制,因为高质量的视觉-语言数据集仍然相对较少。

此外,EVE的成功也引发了一些关于VLMs未来发展方向的讨论。一些人认为,无编码器VLMs代表了多模态学习的未来,因为它们具有更好的灵活性和可扩展性。然而,另一些人则认为,编码器基VLMs仍然具有重要的优势,如更好的性能和更广泛的应用领域。

论文地址: https://arxiv.org/abs/2406.11832

目录
相关文章
|
7月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
104 1
|
8天前
|
机器学习/深度学习 人工智能 文字识别
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
POINTS 1.5是腾讯微信推出的多模态大模型,基于LLaVA架构,具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色,是全球10B以下开源模型中的佼佼者。
126 58
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
|
13天前
|
人工智能 编解码 机器人
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
NVILA是英伟达推出的视觉语言大模型,旨在高效处理高分辨率图像和长视频,同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术,在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。
88 13
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
|
23天前
|
人工智能 测试技术 计算机视觉
LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型
LongLLaVA是由香港中文大学推出的多模态大型语言模型,采用混合架构,结合Mamba和Transformer模块,旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像,通过2D池化技术压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。
44 5
LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型
|
12小时前
|
人工智能 自然语言处理
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
RWKV-7是RWKV系列的最新大模型架构版本,具有强大的上下文学习能力,超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。
20 7
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
|
25天前
|
人工智能 编解码 搜索推荐
OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型
OneDiffusion 是一个开源的扩散模型,能够无缝支持双向图像合成和理解。它基于统一的训练框架,支持多种任务,如文本到图像生成、条件图像生成和图像理解等。OneDiffusion 通过流匹配框架和序列建模技术,实现了高度的灵活性和可扩展性。
59 2
OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型
|
27天前
|
人工智能
突破视频多模态大模型瓶颈!合成数据立大功,项目已开源
针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。
42 7
|
2月前
|
数据采集 人工智能 自然语言处理
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【10月更文挑战第20天】英伟达开源了最新的多模态大型语言模型NVLM 1.0,在图像描述、视觉问答等视觉-语言任务上取得了突破性成果,同时在纯文本任务上也表现出色。该模型采用创新设计,结合了解码器-only和交叉注意力的优势,训练数据丰富且高质量。NVLM 1.0的发布推动了多模态技术的发展,但也面临计算资源需求高、数据质量和模型可解释性等挑战。
45 3
|
2月前
|
机器学习/深度学习 编解码 负载均衡
MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用
本文提出了一种名为混合头注意力(MoH)的新架构,旨在提高Transformer模型中注意力机制的效率。MoH通过动态注意力头路由机制,使每个token能够自适应选择合适的注意力头,从而在减少激活头数量的同时保持或提升模型性能。实验结果显示,MoH在图像分类、类条件图像生成和大语言模型等多个任务中均表现出色,尤其在减少计算资源消耗方面有显著优势。
67 1
|
3月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!