计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)

1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks

Authors: Isaac R. Galatzer-Levy, David Munday, Jed McGiffin, Xin Liu, Danny

Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff

https://arxiv.org/abs/2410.07391

生成式人工智能的认知能力:与人类基准的比较分析

摘要

本研究对领先的大型语言模型和视觉语言模型在韦氏成人智力量表(WAIS-IV)上的表现进行了基准测试,该量表是评估人类认知和智力能力的全面、基于人群标准化的评估工具。研究重点关注了言语理解(VCI)、工作记忆(WMI)和知觉推理(PRI)三个领域。大多数模型在存储、检索和操纵符号(如任意字母和数字序列)方面表现出色,工作记忆指数(WMI)的表现达到或超过人类99.5百分位。然而,多模态模型在知觉推理指数(PRI)上的表现普遍较差,显示出对视觉信息的解释和推理能力存在显著缺陷。

研究背景

随着生成式人工智能(GenAI)的发展,人们越来越关注其在模仿人类认知功能方面的潜力。GenAI模型通过学习大量数据集中的潜在模式和结构,生成新颖的输出,这些输出常常模仿人类的创造力。然而,人类认知包括一系列专门能力,涉及信息的处理、存储、解释和生成,这些能力在听觉和视觉通道上都有所体现。

算法模型

研究中使用了多种大型语言模型(LLMs)和视觉语言模型(VLMs),包括OpenAI的GPT-3.5 Turbo、Google的Gemini系列等。这些模型通过转换传统的语言和视觉刺激为基于文本的提示,并解释模型生成的文本输出作为测试项的响应。

核心创新点

  • 提出了一种新的方法,通过WAIS-IV对GenAI模型进行评估,以直接与人类能力进行比较。
  • 实现了一系列方法论适应,以适应这些模型独特的输入和输出方式。
  • 通过比较GenAI模型在不同认知领域的性能,揭示了它们在工作记忆和言语理解方面的相对优势,以及在知觉推理方面的显著弱点。

实验效果

  • 在言语理解指数(VCI)上,大多数模型表现在99.5百分位以上。
  • 在工作记忆指数(WMI)上,除了Gemini Nano外,大多数模型表现在99.5百分位以上。
  • 在知觉推理指数(PRI)上,所有多模态模型的表现都在极低水平,表明在视觉信息处理方面存在显著缺陷。



后续潜在研究方向

  • 探索如何通过架构改进或训练方法提升GenAI模型在知觉推理方面的能力。
  • 研究如何更好地模拟人类的多模态认知能力,包括视觉和听觉信息的处理。
  • 进一步研究GenAI模型在特定领域的应用,如艺术、设计、研究和通信等。

推荐阅读指数:4.5

2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Authors: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing

Jiang, Chengqi Zhang

https://arxiv.org/abs/2410.07484

WALL-E:通过规则学习实现世界对齐,提升基于世界模型的LLM代理

摘要

本研究提出了一种新的方法,通过规则学习来对齐大型语言模型(LLMs)与特定环境的动态,从而提高LLM代理在开放世界任务中的成功率和效率。研究者们开发了一个神经符号方法,通过LLMs的归纳推理和代码生成能力来学习规则,而无需梯度更新。这种方法通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则,从而提高预测和实际轨迹之间的一致性。

研究背景

LLMs在复杂推理、生成和规划任务中表现出色,但在特定开放世界环境中作为代理部署时,其可靠性不足。主要原因是LLMs的常识推理与预训练知识与特定环境的动态之间存在差距,导致对未来状态的预测错误或违反基本规则。

算法模型

研究者们提出了一个名为WALL-E的神经符号世界模型,该模型结合了预训练的LLM和从与环境的交互轨迹中学习到的一组新规则。这种方法结合了LLMs的丰富先验知识和规则的硬约束和严格保证。

核心创新点

  • 提出了一种无需梯度更新的神经符号方法,通过LLMs的归纳推理和代码生成能力来学习规则。
  • 通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则,从而提高预测和实际轨迹之间的一致性。
  • 通过模型预测控制(MPC)框架,优化了基于精确世界模型的LLM代理的探索和学习效率。

实验效果

  • 在Minecraft和ALFWorld环境中,WALL-E在成功率、重规划时间和推理所用的令牌数量上均优于现有方法。
  • 在Minecraft中,WALL-E的成功率比基线高出15-30%,同时重规划轮数减少8-20轮,令牌使用量为60-80%。
  • 在ALFWorld中,WALL-E在6次迭代后成功率达到95%,创下新高。

后续潜在研究方向

  • 探索如何将WALL-E方法应用于更广泛的环境和任务,以及如何进一步提高规则学习的效果和效率。
  • 研究如何结合更多的环境反馈和动态调整规则,以适应环境的快速变化。
  • 进一步研究如何减少规则学习过程中的人工干预,提高自动化程度。

推荐阅读指数:4


计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(下)+https://developer.aliyun.com/article/1628961

相关文章
|
8月前
|
监控 算法 安全
基于 C# 基数树算法的网络屏幕监控敏感词检测技术研究
随着数字化办公和网络交互迅猛发展,网络屏幕监控成为信息安全的关键。基数树(Trie Tree)凭借高效的字符串处理能力,在敏感词检测中表现出色。结合C#语言,可构建高时效、高准确率的敏感词识别模块,提升网络安全防护能力。
202 2
|
7月前
|
运维 监控 算法
基于 Java 滑动窗口算法的局域网内部监控软件流量异常检测技术研究
本文探讨了滑动窗口算法在局域网流量监控中的应用,分析其在实时性、资源控制和多维分析等方面的优势,并提出优化策略,结合Java编程实现高效流量异常检测。
293 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
10月前
|
监控 算法 JavaScript
基于 JavaScript 图算法的局域网网络访问控制模型构建及局域网禁止上网软件的技术实现路径研究
本文探讨局域网网络访问控制软件的技术框架,将其核心功能映射为图论模型,通过节点与边表示终端设备及访问关系。以JavaScript实现DFS算法,模拟访问权限判断,优化动态策略更新与多层级访问控制。结合流量监控数据,提升网络安全响应能力,为企业自主研发提供理论支持,推动智能化演进,助力数字化管理。
240 4
|
10月前
|
存储 监控 算法
内网监控桌面与 PHP 哈希算法:从数据追踪到行为审计的技术解析
本文探讨了内网监控桌面系统的技术需求与数据结构选型,重点分析了哈希算法在企业内网安全管理中的应用。通过PHP语言实现的SHA-256算法,可有效支持软件准入控制、数据传输审计及操作日志存证等功能。文章还介绍了性能优化策略(如分块哈希计算和并行处理)与安全增强措施(如盐值强化和动态更新),并展望了哈希算法在图像处理、网络流量分析等领域的扩展应用。最终强调了构建完整内网安全闭环的重要性,为企业数字资产保护提供技术支撑。
270 2
|
11月前
|
存储 算法 物联网
解析局域网内控制电脑机制:基于 Go 语言链表算法的隐秘通信技术探究
数字化办公与物联网蓬勃发展的时代背景下,局域网内计算机控制已成为提升工作效率、达成设备协同管理的重要途径。无论是企业远程办公时的设备统一调度,还是智能家居系统中多设备间的联动控制,高效的数据传输与管理机制均构成实现局域网内计算机控制功能的核心要素。本文将深入探究 Go 语言中的链表数据结构,剖析其在局域网内计算机控制过程中,如何达成数据的有序存储与高效传输,并通过完整的 Go 语言代码示例展示其应用流程。
215 0
|
5月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
502 0
|
5月前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
329 2
|
6月前
|
传感器 机器学习/深度学习 编解码
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
307 3

热门文章

最新文章