ECCV 2024:是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

简介: 【8月更文挑战第19天】多模态大模型(MLLMs)能依据视觉输入生成回应,但常过度依赖文本预训练知识,忽略视觉信息,导致回应与图像不符的问题。新论文提出“Bootstrapped Preference Optimization (BPO)”方法,通过引入含偏差的样本进行偏好学习,以减少文本偏倚的影响并提高模型可靠性。实验表明该方法有效改善了模型性能,但在构建偏好数据集方面仍面临挑战。论文链接: https://arxiv.org/pdf/2403.08730

在人工智能领域,多模态大模型(MLLMs)因其能够根据视觉输入生成响应而备受关注。然而,这些模型在实际应用中常常面临一个问题:它们过于依赖文本预训练知识,而忽视了视觉信息的重要性。这个问题在最近的一篇论文中被提出,并引起了广泛的讨论。

这篇论文指出,多模态大模型在生成响应时,往往会受到文本预训练知识的偏差影响,导致生成的响应与视觉输入不符。例如,模型可能会生成不存在的物体,或者错误地识别物体的属性,如形状或颜色。这种偏差使得多模态大模型在实际应用中变得不可靠,尤其是在高风险的场景中,如自动驾驶系统或医疗助理。

为了解决这个问题,论文提出了一种名为“Bootstrapped Preference Optimization(BPO)”的方法。这种方法通过在数据集中包含由模型本身生成的负面响应,来进行偏好学习。具体来说,论文提出了两种策略:

1.使用失真的图像输入:通过向多模态大模型提供失真的图像输入,以诱导模型生成包含明显文本预训练偏差的响应。
2.利用基于文本的LLM:通过利用基于文本的大型语言模型(LLM),显式地向原始响应中注入错误但常见的元素。

这些不理想的响应与数据集中的原始标注响应配对,以构建偏好数据集,然后利用该数据集进行偏好学习。论文通过广泛的实验证明了这种方法的有效性,并在多个基准测试中取得了显著的性能提升。

然而,尽管BPO方法在解决多模态大模型的偏差问题上取得了一定的成功,但仍然存在一些挑战和限制。首先,构建高质量的偏好数据集需要大量的人力和计算资源,这可能会限制其在实际应用中的可行性。其次,BPO方法可能无法完全消除多模态大模型的偏差,因为文本预训练知识仍然在模型的生成过程中起着重要作用。

此外,一些研究人员对BPO方法的有效性提出了质疑。他们认为,通过向模型提供失真的图像输入或注入错误元素来构建偏好数据集,可能会引入额外的偏差,从而影响模型的学习效果。因此,他们建议探索其他方法,如改进模型的架构或训练过程,以更好地解决多模态大模型的偏差问题。

论文链接:https://arxiv.org/pdf/2403.08730

目录
相关文章
|
6月前
|
人工智能 自动驾驶 机器人
ICLR 2024:模型选择驱动的鲁棒多模态模型推理
【2月更文挑战第24天】ICLR 2024:模型选择驱动的鲁棒多模态模型推理
74 1
ICLR 2024:模型选择驱动的鲁棒多模态模型推理
|
2月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
77 7
|
3月前
|
机器学习/深度学习 自然语言处理 数据建模
7.2 Transformer:具有里程碑意义的新模型——自注意力模型
该文章详细介绍了Transformer模型及其核心组件自注意力模型(Self-Attention Model),解释了其如何克服循环神经网络在处理长序列数据时遇到的长程依赖问题,并促进了深度学习在多个领域的应用发展。
|
4月前
|
机器学习/深度学习 自然语言处理 前端开发
大模型问题之神经语言模型与大模型的关系是什么
大模型问题之神经语言模型与大模型的关系是什么
|
4月前
|
机器学习/深度学习 自然语言处理
预训练语义模型作为特征提取器的方法
预训练语义模型作为特征提取器的方法
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
|
6月前
|
机器学习/深度学习
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
382 1
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
|
数据挖掘
InsTag:大语言模型监督微调数据标签标注工具
魔搭社区发布了一个名为“InsTagger”的工具,用于分析LLM(大语言模型)中符合人类偏好的监督微调(SFT)数据。InsTagger 是基于 InsTag 方法训练的本地指令标签标注器,用于为符合人类偏好的监督微调数据集中的指令标注描述其意图和语义的标签,从而指导指令的分流或监督微调数据集的分析。
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
382 0
|
机器学习/深度学习
【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究
【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究
449 0
【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究