ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

简介: 【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。

最近,一篇荣获ACL杰出论文奖的研究引起了广泛关注。该研究由约翰斯•霍普金斯大学(JHU)等机构联合发布,旨在解决当前大模型在心智能力上的缺陷。他们提出了首个多模态心智理论(ToM)测试集——MMToM-QA,为全面提升大模型的心智能力提供了新的思路和方法。

心智理论(ToM)是指理解他人心理状态的能力,包括信念、愿望、意图等。它是人类社交智能的重要组成部分,对于机器与人类进行自然交互至关重要。然而,尽管近年来机器学习模型,尤其是大型语言模型,在ToM理解方面取得了一些进展,但现有的ToM基准测试集都是单模态的,要么基于视频,要么基于文本。这与人类ToM的灵活性和多样性相去甚远。

为了解决这个问题,研究人员引入了MMToM-QA,一个多模态ToM问答基准测试集。它不仅包含多模态数据,还包含关于个人在家庭环境中活动的不同类型的单模态数据。通过这种方式,MMToM-QA能够更全面地评估机器的ToM能力。

为了实现多模态ToM能力,研究人员提出了一种名为BIP-ALM(基于贝叶斯逆规划的语言模型加速)的新颖方法。BIP-ALM从多模态数据中提取统一表示,并利用语言模型进行可扩展的贝叶斯逆规划。这种方法结合了基于模型的心理推理和语言模型的力量,有望在多模态ToM任务中取得更好的性能。

为了评估BIP-ALM的效果,研究人员进行了系统性的比较实验,包括人类性能、BIP-ALM以及最先进的模型,如GPT-4。实验结果表明,尽管大型语言模型和大型多模态模型在ToM能力上取得了一定的进展,但它们仍然缺乏稳健的ToM能力。相比之下,BIP-ALM展现出了令人鼓舞的结果,表明通过结合基于模型的心理推理和语言模型的力量,可以实现更强大的ToM能力。

然而,这项研究也存在一些局限性。首先,MMToM-QA主要关注个人在家庭环境中的活动,可能无法完全代表真实世界中的所有情况。其次,BIP-ALM的性能仍然有待进一步提升,以达到与人类相媲美的水平。此外,将BIP-ALM应用于实际场景时,可能还需要解决一些技术挑战,如数据隐私和计算资源等。

论文地址: https://arxiv.org/abs/2401.08743

目录
相关文章
|
机器学习/深度学习 人工智能 并行计算
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
|
12月前
|
云安全 人工智能 自然语言处理
|
Web App开发 人工智能
UC伯克利:给大模型测MBTI,Llama更敢说但GPT-4像理工男
UC伯克利研究团队推出VibeCheck系统,自动比较大型语言模型(LLM)的输出特征,如语调、格式和写作风格。该系统通过迭代挖掘特征并利用LLM法官量化其实用性,验证结果显示其能有效捕捉模型的独特“vibes”。VibeCheck应用于对话、摘要、数学和字幕生成等任务,揭示了不同模型的行为差异,并在预测模型身份和用户偏好方面表现出色。尽管存在主观性和测试范围有限的局限性,VibeCheck为改进LLM评估提供了新视角。论文地址:https://arxiv.org/abs/2410.12851
388 98
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
1157 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
|
人工智能 编解码 算法
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。
2570 2
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
|
人工智能 自然语言处理 机器人
D1net阅闻 | 大模型军备竞赛升级:GPT-4.5/Grok 3同日官宣
D1net阅闻 | 大模型军备竞赛升级:GPT-4.5/Grok 3同日官宣
|
自然语言处理 安全 测试技术
基于大模型的应用的测试的一些注意事项
大模型应用测试需注意三大冲突:时间敏感性冲突,即模型数据可能随时间变得过时;数据真实性冲突,指训练数据中可能存在虚假信息,影响模型准确性;数据一致性冲突,表现为模型对语义相同但句法不同的输入反应不一。测试时应针对这些问题设计用例,确保模型性能。
680 4
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
2927 6
|
编解码 人工智能 自然语言处理
迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据,无需标准化。其核心创新包括任意分辨率编码和动态压缩器模块,适用于从微小图标到长时间视频的多种应用场景。Oryx 在长上下文检索和空间感知数据方面表现出色,并且已开源,为多模态研究提供了强大工具。然而,选择合适的分辨率和压缩率仍需谨慎,以平衡处理效率和识别精度。论文地址:https://www.nature.com/articles/s41467-024-52417-z
246 2

热门文章

最新文章