清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？-阿里云开发者社区

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

2024-08-16 92

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第16天】近日，清华大学等机构发布了MultiTrust多模态评估研究，旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准，覆盖真实性、安全性等五大方面，包含32个任务。研究对21个现代模型进行了实验，揭示了可信度问题和风险，强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型，特别是在安全性方面。此外，研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。

近日，清华大学联合多家机构发布了一项名为MultiTrust的多模态评估研究，旨在全面评估多模态大型语言模型（MLLMs）的可信度。这项研究由清华大学计算机系的Yichi Zhang、Yao Huang、Yitong Sun等学者共同完成，并得到了来自北京航空航天大学、上海交通大学等机构的支持。

MultiTrust是第一个全面、统一的多模态评估基准，涵盖了五个主要方面：真实性、安全性、鲁棒性、公平性和隐私。该研究采用了严格的评估策略，旨在解决多模态风险和跨模态影响，并包含了32个多样化的任务，其中大部分数据集是自行收集或合成的。

研究团队对21个现代MLLMs进行了广泛的实验，包括4个专有模型和17个开源模型。实验结果揭示了一些以前未被探索的可信度问题和风险，强调了多模态性引入的复杂性，并突出了提高模型可靠性的先进方法的必要性。

在真实性方面，研究团队发现，尽管开源MLLMs在多个通用基准上接近或超过了专有模型，但在可信度方面仍存在显著差距。GPT-4V和Claude3等专有模型在安全性和对齐方面表现出更好的性能，这表明开源模型的开发和部署存在不足和风险。

在安全性方面，研究团队发现，多模态训练和推理中引入图像会严重危害MLLMs的可信度。这表现在多个方面，包括基础LLMs的性能和对齐被破坏，无关图像导致不稳定行为，以及相关视觉上下文加剧可信度风险。这强调了开发可信的MLLMs不仅仅是使用一个对齐良好的LLM，而是一个更复杂的问题。

在鲁棒性方面，研究团队发现，MLLMs继承了深度神经网络的对抗脆弱性。在图像字幕任务中，大多数模型在受到未定向攻击时，准确率从90%以上降至20%以下。在定向攻击中，超过一半的模型以超过50%的比例输出了所需的目标对象，甚至包括商业模型Qwen-VL-Plus。

在公平性方面，研究团队发现，大多数MLLMs对刻板印象用户查询表现出高度敏感性，即使在相关图像的影响下，平均拒绝回答（RtA）率仍保持在93.79%。然而，当刻板印象从应用场景查询转变为基于观点的评价时，MLLMs的性能差异不仅在专有和开源模型之间变得明显，而且在刻板印象主题之间也变得明显。

在隐私方面，研究团队发现，大多数模型具备基本的隐私概念，在决定图像中是否存在个人信息时，平均准确率为72.30%。然而，在需要更复杂推理的场景中，这种意识受到了严重挑战，平均性能显著下降至55.33%，扩大了专有和开源模型之间的差距。

论文链接：https://arxiv.org/pdf/2406.07057

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

热门文章

最新文章

相关课程

相关电子书

相关实验场景