清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

简介: 【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。

近日,清华大学联合多家机构发布了一项名为MultiTrust的多模态评估研究,旨在全面评估多模态大型语言模型(MLLMs)的可信度。这项研究由清华大学计算机系的Yichi Zhang、Yao Huang、Yitong Sun等学者共同完成,并得到了来自北京航空航天大学、上海交通大学等机构的支持。

MultiTrust是第一个全面、统一的多模态评估基准,涵盖了五个主要方面:真实性、安全性、鲁棒性、公平性和隐私。该研究采用了严格的评估策略,旨在解决多模态风险和跨模态影响,并包含了32个多样化的任务,其中大部分数据集是自行收集或合成的。

研究团队对21个现代MLLMs进行了广泛的实验,包括4个专有模型和17个开源模型。实验结果揭示了一些以前未被探索的可信度问题和风险,强调了多模态性引入的复杂性,并突出了提高模型可靠性的先进方法的必要性。

在真实性方面,研究团队发现,尽管开源MLLMs在多个通用基准上接近或超过了专有模型,但在可信度方面仍存在显著差距。GPT-4V和Claude3等专有模型在安全性和对齐方面表现出更好的性能,这表明开源模型的开发和部署存在不足和风险。

在安全性方面,研究团队发现,多模态训练和推理中引入图像会严重危害MLLMs的可信度。这表现在多个方面,包括基础LLMs的性能和对齐被破坏,无关图像导致不稳定行为,以及相关视觉上下文加剧可信度风险。这强调了开发可信的MLLMs不仅仅是使用一个对齐良好的LLM,而是一个更复杂的问题。

在鲁棒性方面,研究团队发现,MLLMs继承了深度神经网络的对抗脆弱性。在图像字幕任务中,大多数模型在受到未定向攻击时,准确率从90%以上降至20%以下。在定向攻击中,超过一半的模型以超过50%的比例输出了所需的目标对象,甚至包括商业模型Qwen-VL-Plus。

在公平性方面,研究团队发现,大多数MLLMs对刻板印象用户查询表现出高度敏感性,即使在相关图像的影响下,平均拒绝回答(RtA)率仍保持在93.79%。然而,当刻板印象从应用场景查询转变为基于观点的评价时,MLLMs的性能差异不仅在专有和开源模型之间变得明显,而且在刻板印象主题之间也变得明显。

在隐私方面,研究团队发现,大多数模型具备基本的隐私概念,在决定图像中是否存在个人信息时,平均准确率为72.30%。然而,在需要更复杂推理的场景中,这种意识受到了严重挑战,平均性能显著下降至55.33%,扩大了专有和开源模型之间的差距。

论文链接:https://arxiv.org/pdf/2406.07057

目录
相关文章
|
13天前
|
机器学习/深度学习 人工智能 算法
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
Kimi k1.5 是月之暗面推出的多模态思考模型,具备强大的推理和多模态处理能力,支持长链思维与短链思维,性能超越GPT-4和Claude 3.5。
234 10
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
|
19天前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
276 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
|
4月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
245 60
|
3月前
|
人工智能 测试技术 人机交互
mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA
【10月更文挑战第24天】EMOVA(EMotionally Omni-present Voice Assistant)是一项多模态全能助手的研究,旨在实现更自然、更智能的人机交互。该模型不仅能够处理图像、文本和语音,还具备丰富的情感表达能力。通过语义-声学解耦的语音标记器、全模态对齐和轻量级风格模块,EMOVA在视觉-语言和语音基准测试中表现出色,适用于智能助手、虚拟现实、教育和娱乐等领域。
47 3
|
4月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
72 6
|
5月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
109 10
|
7月前
|
人工智能 自然语言处理 测试技术
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
【7月更文挑战第11天】蒙特利尔大学Yoshua Bengio团队推出多模态新基准MFE,旨在全面评估大型语言模型在处理跨模态任务时的能力。MFE包含多样化数据集、挑战性任务和严格评估指标,暴露了Claude 3.5和GPT-4o等现有模型的弱点,为多模态AI研究提供新视角和改进方向。论文链接:arxiv.org/abs/2406.06462
88 1
|
7月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
69 3
|
7月前
|
存储 NoSQL 索引
Python 金融编程第二版(GPT 重译)(一)(4)
Python 金融编程第二版(GPT 重译)(一)
78 2
|
7月前
|
存储 机器学习/深度学习 关系型数据库
Python 金融编程第二版(GPT 重译)(四)(5)
Python 金融编程第二版(GPT 重译)(四)
47 2

热门文章

最新文章