ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

简介: 【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。

最近,一篇荣获ACL杰出论文奖的研究引起了广泛关注。该研究由约翰斯•霍普金斯大学(JHU)等机构联合发布,旨在解决当前大模型在心智能力上的缺陷。他们提出了首个多模态心智理论(ToM)测试集——MMToM-QA,为全面提升大模型的心智能力提供了新的思路和方法。

心智理论(ToM)是指理解他人心理状态的能力,包括信念、愿望、意图等。它是人类社交智能的重要组成部分,对于机器与人类进行自然交互至关重要。然而,尽管近年来机器学习模型,尤其是大型语言模型,在ToM理解方面取得了一些进展,但现有的ToM基准测试集都是单模态的,要么基于视频,要么基于文本。这与人类ToM的灵活性和多样性相去甚远。

为了解决这个问题,研究人员引入了MMToM-QA,一个多模态ToM问答基准测试集。它不仅包含多模态数据,还包含关于个人在家庭环境中活动的不同类型的单模态数据。通过这种方式,MMToM-QA能够更全面地评估机器的ToM能力。

为了实现多模态ToM能力,研究人员提出了一种名为BIP-ALM(基于贝叶斯逆规划的语言模型加速)的新颖方法。BIP-ALM从多模态数据中提取统一表示,并利用语言模型进行可扩展的贝叶斯逆规划。这种方法结合了基于模型的心理推理和语言模型的力量,有望在多模态ToM任务中取得更好的性能。

为了评估BIP-ALM的效果,研究人员进行了系统性的比较实验,包括人类性能、BIP-ALM以及最先进的模型,如GPT-4。实验结果表明,尽管大型语言模型和大型多模态模型在ToM能力上取得了一定的进展,但它们仍然缺乏稳健的ToM能力。相比之下,BIP-ALM展现出了令人鼓舞的结果,表明通过结合基于模型的心理推理和语言模型的力量,可以实现更强大的ToM能力。

然而,这项研究也存在一些局限性。首先,MMToM-QA主要关注个人在家庭环境中的活动,可能无法完全代表真实世界中的所有情况。其次,BIP-ALM的性能仍然有待进一步提升,以达到与人类相媲美的水平。此外,将BIP-ALM应用于实际场景时,可能还需要解决一些技术挑战,如数据隐私和计算资源等。

论文地址: https://arxiv.org/abs/2401.08743

目录
相关文章
|
8天前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
168 101
|
1月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
312 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
1月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
683 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
2月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
271 1
|
9天前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
64 4
|
28天前
|
机器学习/深度学习 编解码 人工智能
InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成
近日,上海人工智能实验室(上海AI实验室)重磅开源发布了多模态大模型书生·万象 InternVL3.5,通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
463 7
|
1月前
|
人机交互 API 开发工具
基于通义多模态大模型的实时音视频交互
Qwen-Omni是通义千问系列的全新多模态大模型,支持文本、图像、音频和视频的输入,并输出文本和音频。Omni-Realtime服务针对实时交互场景优化,提供低延迟的人机交互体验。
390 23
|
12天前
|
测试技术 UED 开发者
性能测试报告-用于项目的性能验证、性能调优、发现性能缺陷等应用场景
性能测试报告用于评估系统性能、稳定性和安全性,涵盖测试环境、方法、指标分析及缺陷优化建议,是保障软件质量与用户体验的关键文档。

热门文章

最新文章