ECCV 2024：是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了-阿里云开发者社区

ECCV 2024：是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

2024-08-19 56

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第19天】多模态大模型（MLLMs）能依据视觉输入生成回应，但常过度依赖文本预训练知识，忽略视觉信息，导致回应与图像不符的问题。新论文提出“Bootstrapped Preference Optimization (BPO)”方法，通过引入含偏差的样本进行偏好学习，以减少文本偏倚的影响并提高模型可靠性。实验表明该方法有效改善了模型性能，但在构建偏好数据集方面仍面临挑战。论文链接: https://arxiv.org/pdf/2403.08730

在人工智能领域，多模态大模型（MLLMs）因其能够根据视觉输入生成响应而备受关注。然而，这些模型在实际应用中常常面临一个问题：它们过于依赖文本预训练知识，而忽视了视觉信息的重要性。这个问题在最近的一篇论文中被提出，并引起了广泛的讨论。

这篇论文指出，多模态大模型在生成响应时，往往会受到文本预训练知识的偏差影响，导致生成的响应与视觉输入不符。例如，模型可能会生成不存在的物体，或者错误地识别物体的属性，如形状或颜色。这种偏差使得多模态大模型在实际应用中变得不可靠，尤其是在高风险的场景中，如自动驾驶系统或医疗助理。

为了解决这个问题，论文提出了一种名为“Bootstrapped Preference Optimization（BPO）”的方法。这种方法通过在数据集中包含由模型本身生成的负面响应，来进行偏好学习。具体来说，论文提出了两种策略：

1.使用失真的图像输入：通过向多模态大模型提供失真的图像输入，以诱导模型生成包含明显文本预训练偏差的响应。
2.利用基于文本的LLM：通过利用基于文本的大型语言模型（LLM），显式地向原始响应中注入错误但常见的元素。

这些不理想的响应与数据集中的原始标注响应配对，以构建偏好数据集，然后利用该数据集进行偏好学习。论文通过广泛的实验证明了这种方法的有效性，并在多个基准测试中取得了显著的性能提升。

然而，尽管BPO方法在解决多模态大模型的偏差问题上取得了一定的成功，但仍然存在一些挑战和限制。首先，构建高质量的偏好数据集需要大量的人力和计算资源，这可能会限制其在实际应用中的可行性。其次，BPO方法可能无法完全消除多模态大模型的偏差，因为文本预训练知识仍然在模型的生成过程中起着重要作用。

此外，一些研究人员对BPO方法的有效性提出了质疑。他们认为，通过向模型提供失真的图像输入或注入错误元素来构建偏好数据集，可能会引入额外的偏差，从而影响模型的学习效果。因此，他们建议探索其他方法，如改进模型的架构或训练过程，以更好地解决多模态大模型的偏差问题。

论文链接：https://arxiv.org/pdf/2403.08730

ECCV 2024：是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ECCV 2024：是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

热门文章

最新文章

相关课程

相关电子书

相关实验场景