计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15

1. Agents Thinking Fast and Slow: A Talker-Reasoner Architecture

Authors: Konstantina Christakopoulou, Shibl Mourad, Maja Matari’c

https://arxiv.org/abs/2410.08328

快速思考与慢速思考的代理:一种说话者-推理者架构

摘要:

本文介绍了一种新的人工智能代理架构,该架构模仿人类的快速和慢速思考系统。通过将代理分为两个部分——快速直观的“说话者”代理和慢速、逻辑性强的“推理者”代理——来提高代理的对话和推理能力。这种架构具有模块化和降低延迟的优势,特别适合于需要多步推理和规划的场景。

问题背景:

大型语言模型的发展使得AI代理能够通过自然对话与用户互动。这些代理需要同时进行对话和规划/推理,这两者之间的差异类似于人类快速和慢速思考系统。为了提高AI代理在复杂任务中的性能,需要一种新的架构来模拟这两种思考方式。

算法模型:

该模型包括两个主要部分:说话者(Talker)和推理者(Reasoner)。说话者负责生成与用户的对话,而推理者负责执行多步规划和推理。两者通过记忆进行交互,推理者更新信念状态并存储在记忆中,说话者在需要时从记忆中检索这些信息。

算法创新点:

  • 提出了一种新的双系统架构,模拟人类的快速和慢速思考过程。
  • 通过将任务分解为两个代理,优化了性能并减少了延迟。
  • 允许说话者在不需要等待推理者完成复杂推理的情况下进行对话,提高了响应速度。

实验效果:

通过在睡眠辅导代理中的应用案例,展示了该架构在实际环境中的有效性。实验结果表明,该架构能够处理快速直观的对话,并由推理者开发复杂的计划和信念状态。

重要数据结论:

实验结果表明,该架构在处理复杂任务时能够显著提高效率,并且在多步规划和推理方面表现出色。

2. Large Legislative Models: Towards Efficient AI Policymaking in Economic Simulations

Authors: Henry Gasztowtt, Benjamin Smith, Vincent Zhu, Qinxun Bai, Edwin Zhang

https://arxiv.org/abs/2410.08345

大型立法模型:在经济模拟中实现高效的AI政策制定

摘要:

本文提出了一种新的方法,使用预训练的大型语言模型(LLMs)作为多智能体强化学习(MARL)场景中的样本高效政策制定者。该方法在三个环境中展示了显著的效率提升,超越了现有方法。

问题背景:

经济政策制定是一个充满不确定性、高风险和复杂的领域。人类政策制定者常常面临海量数据和利益集团的影响,这使得有效和公平的决策变得复杂。AI驱动的工具能够快速处理大量数据,避免自我中心的偏见,因此可以提供显著的帮助。

算法模型:

该研究提出了一种使用预训练的LLMs作为政策制定者的方法。这种方法不依赖于学习经济政策生成器,而是直接通过应用LLMs的上下文学习(ICL)能力来学习经济政策。

算法伪代码:

算法创新点:

  • 提出了一种新的基于LLMs的自动化政策制定方法,该方法通过使用上下文学习和历史观察来简化政策制定过程。
  • 该方法在输入方面具有高度的灵活性,可以结合人类专家的经济报告来提高样本效率。

实验效果:

在三个多智能体测试环境中,该方法在样本效率方面显著优于五个基线方法,且在最终的渐近性能上没有太大的妥协。

重要数据结论:

在“Commons Harvest Open”环境中,该方法展示了比所有基线更好的样本效率。每个方法都在10个种子上运行。

3. GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation

Authors: Jiashu He, Mingyu Derek Ma, Jinxuan Fan, Dan Roth, Wei Wang, Alejandro Ribeiro

https://arxiv.org/abs/2410.08475

GIVE:基于知识图谱启发的真实性外推结构化推理

摘要:

现有的基于检索的大型语言模型(LLMs)推理方法严重依赖于非参数知识源的密度和质量,以提供领域知识和明确的推理链。然而,对于科学或特定领域的知识库来说,全面的资源构建既昂贵又有时不切实际。为了应对这些挑战,我们引入了一种新的推理框架GIVE,该框架整合了参数和非参数记忆,以增强在非常稀疏的知识图谱上的知识和检索和忠实推理过程。通过利用外部结构化知识激发LLM模拟相关概念之间的相互联系,我们的方法促进了一种更符合专家解决问题的逻辑和逐步推理方法,而不是检索黄金答案。具体来说,该框架提示LLM将查询分解为关键概念和属性,构建具有相关实体的实体组,并通过对这些实体组中的节点对之间的潜在关系进行探测,构建增强的推理链。我们的方法结合了事实和外推链接,以实现全面的理解和响应生成。在生物医学和常识问答上的推理强度基准测试中的广泛实验证明了我们提出的方法的有效性。具体来说,GIVE使GPT3.5-turbo能够在没有任何额外训练成本的情况下超越GPT4等先进模型,从而强调了整合结构化信息和LLM的内部推理能力,以应对有限外部资源的专业任务的有效性。

问题背景:

大型语言模型(LLMs)已显示出能够生成流畅的语言、回答问题以及从给定文本中诱导知识。尽管在一般问题回答中表现出色,但在需要特定领域知识的科学领域或设置中,我们并没有看到类似的成功水平。LLMs的两个技术劣势可能解释了这一不满意的表现。一方面,LLMs不了解专业领域知识,这些知识不是通过训练获得的,需要不断更新。另一方面,LLMs没有配备专业知识来制定多步骤逻辑链以识别和解决问题。

算法模型:

GIVE框架提示LLMs将查询分解为关键概念和属性,构建实体组,并通过探测这些实体组中的节点对之间的潜在关系来构建增强的推理链。该方法结合了事实和外推链接,以实现全面的理解和响应生成。

算法创新点:

  • 提出了一种新的推理框架GIVE,该框架整合了参数和非参数记忆,以增强在非常稀疏的知识图谱上的知识和检索和忠实推理过程。
  • 通过利用外部结构化知识激发LLM模拟相关概念之间的相互联系,促进了一种更符合专家解决问题的逻辑和逐步推理方法。

实验效果:

在生物医学和常识问答上的推理强度基准测试中的广泛实验证明了我们提出的方法的有效性。GIVE使GPT3.5-turbo能够在没有任何额外训练成本的情况下超越GPT4等先进模型。

重要数据结论:

在生物医学和常识问答基准测试中,GIVE在所有基于推理和检索的基线中一致地实现了最佳性能。特别是在生物医学问答任务中,GIVE为GPT3.5-turbo提供了比GPT4高出44.7%的准确率提升。

4. Words as Beacons: Guiding RL Agents with High-Level Language Prompts

Authors: Unai Ruiz-Gonzalez, Alain Andres, Pedro G.Bascoy, Javier Del Ser

https://arxiv.org/abs/2410.08632

词语作为信标:用高级语言提示引导RL代理

摘要:

在强化学习(RL)中,稀疏奖励环境对探索提出了重大挑战,常常导致学习过程效率低下或不完整。为了解决这个问题,本文提出了一个教师-学生RL框架,利用大型语言模型(LLMs)作为“教师”来指导智能体的学习过程,通过将复杂任务分解为子目标。由于LLMs固有的能力,能够根据环境的结构和目的的文本描述来理解RL环境,因此可以像人类一样提供完成任务的子目标。通过这样做,提出了三种类型的子目标:相对于智能体的位置目标、对象表示,以及直接由LLM生成的语言指令。更重要的是,我们展示了只在整个训练阶段查询LLMs,智能体在环境操作中无需LLMs干预的可能性。我们通过在MiniGrid基准测试中评估三种最先进的开源LLMs(Llama、DeepSeek、Qwen)来评估这种提出的框架的性能,实验结果表明,这种基于课程的方法加速了学习,并在复杂任务中增强了探索,与针对稀疏奖励环境设计的最近基线相比,训练步骤的收敛速度提高了30到200倍。

问题背景:

让我们想象一个场景,我们必须掌握一个新技能,而反馈只在长时间的努力后才提供,即没有指导,没有关于进展的信息,只是无休止的试错。这是许多在稀疏奖励环境中运行的强化学习(RL)智能体的经历,其中反馈的稀缺性使得学习过程缓慢且低效。在这种环境中,传统的随机探索方法——智能体通过尝试不同的动作并偶尔获得奖励来学习——往往不够。这种探索策略固有的随机性带来了重大的学习挑战,因为智能体必须依赖偶然性来遇到有奖励的状态。没有频繁或一致的反馈,智能体可能会花费大量时间探索无关或无效的动作,使得学习过程资源密集。然而,尽管取得了令人印象深刻的成就,RL智能体在奖励不频繁且学习变得更具挑战性的环境中仍然需要帮助。

算法模型:

该框架引入了子目标的概念,这些子目标由LLMs生成,分为三类:与智能体相对的位置目标、对象表示,以及由LLM直接生成的语言指令。这些子目标帮助智能体在每个阶段都有明确的目标,从而提高了学习效率。

算法伪代码:

算法创新点:

  • 提出了一种新的教师-学生RL框架,利用LLMs作为教师来生成子目标。
  • 引入了基于位置、表示和语言的三种子目标类型,为智能体提供了更丰富的指导信息。
  • 展示了在训练阶段只需查询LLMs,智能体在环境操作中无需LLMs干预的可能性。

实验效果:

在MiniGrid基准测试中,该方法在各种程序生成的环境中评估了三种最先进的开源LLMs(Llama、DeepSeek、Qwen),实验结果表明该方法可以显著加速学习过程,并提高复杂任务中的探索效率。

重要数据结论:

在MiniGrid环境中,使用LLM生成的子目标的智能体学习速度比基线方法快30至200倍。

5. Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective

Authors: Bo Ni, Yu Wang, Lu Cheng, Erik Blasch, Tyler Derr

https://arxiv.org/abs/2410.08985

走向可信的知识图谱推理:不确定性感知视角

摘要:

本文提出了一种新的知识图谱-大型语言模型(KG-LLM)框架UAG(Uncertainty Aware Knowledge-Graph Reasoning),该框架通过结合不确定性量化技术,提高了KG-LLM在高风险应用中的可靠性。UAG框架设计了一个多步骤推理框架,利用一致性预测提供理论上的预测集保证。实验表明,UAG能够在保持合理预测集大小的同时,实现预定义的覆盖率,并将预测集/区间大小平均减少40%。

问题背景:

虽然KGs与LLMs的结合在减少幻觉和增强推理能力方面取得了成功,但现有的KG-LLM框架缺乏严格的不确定性估计,限制了它们在高风险应用中的可靠部署。

算法模型:

UAG框架包括三个组件:不确定性感知候选检索器、不确定性感知候选评估器和全局错误率控制器。该框架通过在知识图谱中检索初始的不确定性感知答案集,并引导束搜索过程,利用一致性预测实现理论上保证的覆盖率。

算法创新点:

  • 提出了一种新的可信赖KG-LLM框架,该框架整合了不确定性量化技术。
  • 设计了一个不确定性感知的多步骤推理框架,利用一致性预测提供理论上的预测集保证。
  • 引入了错误率控制模块,以调整多步骤过程中的错误率。

实验效果:

在两个广泛使用的多跳知识图谱QA数据集上进行的实验表明,UAG能够在满足不确定性约束的同时,保持合理的预测集大小。

重要数据结论:

UAG在多跳知识图谱QA基准测试中的表现优于基线方法,平均将预测集/区间大小减少了40%,同时实现了预定义的覆盖率。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
16 2
|
1天前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
7 0
|
14天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
1天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。
|
9天前
|
算法
基于粒子群算法的分布式电源配电网重构优化matlab仿真
本研究利用粒子群算法(PSO)优化分布式电源配电网重构,通过Matlab仿真验证优化效果,对比重构前后的节点电压、网损、负荷均衡度、电压偏离及线路传输功率,并记录开关状态变化。PSO算法通过迭代更新粒子位置寻找最优解,旨在最小化网络损耗并提升供电可靠性。仿真结果显示优化后各项指标均有显著改善。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
5天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了一种基于WOA优化的GroupCNN分组卷积网络时间序列预测算法。使用Matlab2022a开发,提供无水印运行效果预览及核心代码(含中文注释)。算法通过WOA优化网络结构与超参数,结合分组卷积技术,有效提升预测精度与效率。分组卷积减少了计算成本,而WOA则模拟鲸鱼捕食行为进行优化,适用于多种连续优化问题。
|
7天前
|
机器学习/深度学习 算法 5G
基于BP神经网络的CoSaMP信道估计算法matlab性能仿真,对比LS,OMP,MOMP,CoSaMP
本文介绍了基于Matlab 2022a的几种信道估计算法仿真,包括LS、OMP、NOMP、CoSaMP及改进的BP神经网络CoSaMP算法。各算法针对毫米波MIMO信道进行了性能评估,通过对比不同信噪比下的均方误差(MSE),展示了各自的优势与局限性。其中,BP神经网络改进的CoSaMP算法在低信噪比条件下表现尤为突出,能够有效提高信道估计精度。
20 2
|
16天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
该算法结合了遗传算法(GA)与分组卷积神经网络(GroupCNN),利用GA优化GroupCNN的网络结构和超参数,提升时间序列预测精度与效率。遗传算法通过模拟自然选择过程中的选择、交叉和变异操作寻找最优解;分组卷积则有效减少了计算成本和参数数量。本项目使用MATLAB2022A实现,并提供完整代码及视频教程。注意:展示图含水印,完整程序运行无水印。
|
15天前
|
算法 决策智能
基于禁忌搜索算法的VRP问题求解matlab仿真,带GUI界面,可设置参数
该程序基于禁忌搜索算法求解车辆路径问题(VRP),使用MATLAB2022a版本实现,并带有GUI界面。用户可通过界面设置参数并查看结果。禁忌搜索算法通过迭代改进当前解,并利用记忆机制避免陷入局部最优。程序包含初始化、定义邻域结构、设置禁忌列表等步骤,最终输出最优路径和相关数据图表。