1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks
Authors: Isaac R. Galatzer-Levy, David Munday, Jed McGiffin, Xin Liu, Danny
Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff
https://arxiv.org/abs/2410.07391
生成式人工智能的认知能力:与人类基准的比较分析
摘要:
本研究对领先的大型语言模型和视觉语言模型在韦氏成人智力量表(WAIS-IV)上的表现进行了基准测试,该量表是评估人类认知和智力能力的全面、基于人群标准化的评估工具。研究重点关注了言语理解(VCI)、工作记忆(WMI)和知觉推理(PRI)三个领域。大多数模型在存储、检索和操纵符号(如任意字母和数字序列)方面表现出色,工作记忆指数(WMI)的表现达到或超过人类99.5百分位。然而,多模态模型在知觉推理指数(PRI)上的表现普遍较差,显示出对视觉信息的解释和推理能力存在显著缺陷。
研究背景:
随着生成式人工智能(GenAI)的发展,人们越来越关注其在模仿人类认知功能方面的潜力。GenAI模型通过学习大量数据集中的潜在模式和结构,生成新颖的输出,这些输出常常模仿人类的创造力。然而,人类认知包括一系列专门能力,涉及信息的处理、存储、解释和生成,这些能力在听觉和视觉通道上都有所体现。
算法模型:
研究中使用了多种大型语言模型(LLMs)和视觉语言模型(VLMs),包括OpenAI的GPT-3.5 Turbo、Google的Gemini系列等。这些模型通过转换传统的语言和视觉刺激为基于文本的提示,并解释模型生成的文本输出作为测试项的响应。
核心创新点:
- 提出了一种新的方法,通过WAIS-IV对GenAI模型进行评估,以直接与人类能力进行比较。
- 实现了一系列方法论适应,以适应这些模型独特的输入和输出方式。
- 通过比较GenAI模型在不同认知领域的性能,揭示了它们在工作记忆和言语理解方面的相对优势,以及在知觉推理方面的显著弱点。
实验效果:
- 在言语理解指数(VCI)上,大多数模型表现在99.5百分位以上。
- 在工作记忆指数(WMI)上,除了Gemini Nano外,大多数模型表现在99.5百分位以上。
- 在知觉推理指数(PRI)上,所有多模态模型的表现都在极低水平,表明在视觉信息处理方面存在显著缺陷。
后续潜在研究方向:
- 探索如何通过架构改进或训练方法提升GenAI模型在知觉推理方面的能力。
- 研究如何更好地模拟人类的多模态认知能力,包括视觉和听觉信息的处理。
- 进一步研究GenAI模型在特定领域的应用,如艺术、设计、研究和通信等。
推荐阅读指数:4.5
2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
Authors: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing
Jiang, Chengqi Zhang
https://arxiv.org/abs/2410.07484
WALL-E:通过规则学习实现世界对齐,提升基于世界模型的LLM代理
摘要:
本研究提出了一种新的方法,通过规则学习来对齐大型语言模型(LLMs)与特定环境的动态,从而提高LLM代理在开放世界任务中的成功率和效率。研究者们开发了一个神经符号方法,通过LLMs的归纳推理和代码生成能力来学习规则,而无需梯度更新。这种方法通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则,从而提高预测和实际轨迹之间的一致性。
研究背景:
LLMs在复杂推理、生成和规划任务中表现出色,但在特定开放世界环境中作为代理部署时,其可靠性不足。主要原因是LLMs的常识推理与预训练知识与特定环境的动态之间存在差距,导致对未来状态的预测错误或违反基本规则。
算法模型:
研究者们提出了一个名为WALL-E的神经符号世界模型,该模型结合了预训练的LLM和从与环境的交互轨迹中学习到的一组新规则。这种方法结合了LLMs的丰富先验知识和规则的硬约束和严格保证。
核心创新点:
- 提出了一种无需梯度更新的神经符号方法,通过LLMs的归纳推理和代码生成能力来学习规则。
- 通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则,从而提高预测和实际轨迹之间的一致性。
- 通过模型预测控制(MPC)框架,优化了基于精确世界模型的LLM代理的探索和学习效率。
实验效果:
- 在Minecraft和ALFWorld环境中,WALL-E在成功率、重规划时间和推理所用的令牌数量上均优于现有方法。
- 在Minecraft中,WALL-E的成功率比基线高出15-30%,同时重规划轮数减少8-20轮,令牌使用量为60-80%。
- 在ALFWorld中,WALL-E在6次迭代后成功率达到95%,创下新高。
后续潜在研究方向:
- 探索如何将WALL-E方法应用于更广泛的环境和任务,以及如何进一步提高规则学习的效果和效率。
- 研究如何结合更多的环境反馈和动态调整规则,以适应环境的快速变化。
- 进一步研究如何减少规则学习过程中的人工干预,提高自动化程度。
推荐阅读指数:4
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(下)+https://developer.aliyun.com/article/1628961