近日,清华大学联合多家机构发布了一项名为MultiTrust的多模态评估研究,旨在全面评估多模态大型语言模型(MLLMs)的可信度。这项研究由清华大学计算机系的Yichi Zhang、Yao Huang、Yitong Sun等学者共同完成,并得到了来自北京航空航天大学、上海交通大学等机构的支持。
MultiTrust是第一个全面、统一的多模态评估基准,涵盖了五个主要方面:真实性、安全性、鲁棒性、公平性和隐私。该研究采用了严格的评估策略,旨在解决多模态风险和跨模态影响,并包含了32个多样化的任务,其中大部分数据集是自行收集或合成的。
研究团队对21个现代MLLMs进行了广泛的实验,包括4个专有模型和17个开源模型。实验结果揭示了一些以前未被探索的可信度问题和风险,强调了多模态性引入的复杂性,并突出了提高模型可靠性的先进方法的必要性。
在真实性方面,研究团队发现,尽管开源MLLMs在多个通用基准上接近或超过了专有模型,但在可信度方面仍存在显著差距。GPT-4V和Claude3等专有模型在安全性和对齐方面表现出更好的性能,这表明开源模型的开发和部署存在不足和风险。
在安全性方面,研究团队发现,多模态训练和推理中引入图像会严重危害MLLMs的可信度。这表现在多个方面,包括基础LLMs的性能和对齐被破坏,无关图像导致不稳定行为,以及相关视觉上下文加剧可信度风险。这强调了开发可信的MLLMs不仅仅是使用一个对齐良好的LLM,而是一个更复杂的问题。
在鲁棒性方面,研究团队发现,MLLMs继承了深度神经网络的对抗脆弱性。在图像字幕任务中,大多数模型在受到未定向攻击时,准确率从90%以上降至20%以下。在定向攻击中,超过一半的模型以超过50%的比例输出了所需的目标对象,甚至包括商业模型Qwen-VL-Plus。
在公平性方面,研究团队发现,大多数MLLMs对刻板印象用户查询表现出高度敏感性,即使在相关图像的影响下,平均拒绝回答(RtA)率仍保持在93.79%。然而,当刻板印象从应用场景查询转变为基于观点的评价时,MLLMs的性能差异不仅在专有和开源模型之间变得明显,而且在刻板印象主题之间也变得明显。
在隐私方面,研究团队发现,大多数模型具备基本的隐私概念,在决定图像中是否存在个人信息时,平均准确率为72.30%。然而,在需要更复杂推理的场景中,这种意识受到了严重挑战,平均性能显著下降至55.33%,扩大了专有和开源模型之间的差距。