计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05(上)

1. LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition

Authors: Alireza Kheirandish, Duo Xu, Faramarz Fekri

https://arxiv.org/abs/2410.01929

增强符号强化学习与基于地标的任务分解

摘要

本文提出了一种新的方法,通过使用给定的正负轨迹来识别子任务,以解决复杂的强化学习任务。我们假设状态由一阶谓词逻辑表示,并设计了一种新算法来识别子任务。然后,我们使用大型语言模型(LLM)生成一阶逻辑规则模板,以实现每个子任务。这些规则进一步通过归纳逻辑编程(ILP)基于强化学习的代理进行微调。通过实验,我们验证了算法在检测子任务方面的准确性,并研究了语言模型产生的常识规则的质量。实验表明,我们的方法可以生成解决子任务所需的规则,从而在对环境预定义的一阶逻辑谓词的假设更少的情况下解决复杂任务。

研究背景

在强化学习(RL)中,将复杂任务分解为更简单的子任务是关键技术之一。这种方法通过将艰巨的挑战分解为更小、更易实现的目标和清晰的路径,使复杂任务更易于管理。地标是完成任务所必需访问的特定状态,它们作为关键里程碑,有助于有效的决策制定和结构化、高效的解决问题策略。

问题与挑战

在复杂环境中,直接找到目标的轨迹并不明显,或者解决复杂任务所需的策略复杂,使得直接解决方案具有挑战性。此外,在稀疏且不可解释的奖励环境中,如何有效地识别地标和子任务是一个挑战。

如何解决

作者提出了一种算法,使用对比学习来检测潜在的地标状态,然后使用图搜索算法来识别每个子任务所需的必要谓词。此外,使用大型语言模型(LLM)生成规则模板,这些模板进一步通过归纳逻辑编程(ILP)基于RL代理进行微调。

图检索算法:

创新点

  1. 地标识别:使用对比学习和图搜索算法来识别地标,而不是依赖于奖励中心算法。
  2. 规则模板生成:使用LLM生成规则模板,而不是依赖于人类专家生成的规则模板。
  3. 减少对预定义谓词的依赖:通过LLM引导的规则生成,减少了对环境预定义一阶逻辑谓词的假设。

算法模型

  1. 对比学习:用于检测潜在的地标状态。
  2. 图搜索算法:用于识别每个子任务所需的必要谓词。
  3. LLM规则模板生成:使用LLM生成规则模板。
  4. ILP-RL代理:用于微调生成的规则模板。

实验效果

  • 实验环境:修改版的GetOut和Loot环境。
  • 重要数据
  • 在GetOut*环境中,4个子任务的平均奖励为22.86 ± 2.46。
  • 在GetOut环境中,4个子任务的平均奖励为22.84 ± 2.49。
  • 结论:算法在检测子任务方面准确且高效,LLM引导的规则生成方法减少了对预定义逻辑谓词的依赖,提供了更灵活和可扩展的解决方案。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一种创新的方法,通过结合LLM和符号RL来解决复杂的强化学习任务。这种方法不仅提高了子任务检测的准确性和效率,而且减少了对预定义逻辑谓词的依赖,为解决复杂任务提供了一种新的视角。

2. Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks

Authors: Hamed Firooz, Maziar Sanjabi, Wenlong Jiang, Xiaoling Zhai

https://arxiv.org/abs/2410.01985

“迷失在远距离”: 上下文邻近性对大型语言模型在图任务中性能的影响

摘要

尽管大型语言模型(LLMs)取得了显著的进步,但它们在检索和有效处理相关上下文数据方面存在盲点。我们展示了LLMs在处理复杂度超出“大海捞针”场景的图任务时,其性能受到上下文中相关信息邻近性的影响,这种现象我们称之为“迷失在远距离”。我们检验了两个基本的图任务:识别两个节点之间的共同连接和评估三个节点之间的相似性,并表明模型在这些任务中的表现在很大程度上取决于共同边的相对位置。我们评估了三个公开可用的LLMs(Llama-3-8B、Llama-3-70B和GPT-4),并使用各种图编码技术来表示LLM输入的图结构。我们提出了“迷失在远距离”现象的公式,并证明“迷失在远距离”和“迷失在中间”现象是独立发生的。结果表明,模型的准确性随着节点连接之间的距离增加而下降,下降幅度高达6倍,与图编码和模型大小无关。

研究背景

LLMs通过利用规模和基于注意力的架构,达到了前所未有的普遍性水平。这些模型在包括语言翻译、阅读理解和问答在内的多种任务中展现出卓越能力。此外,LLMs也越来越多地作为各种面向用户的机器学习和人工智能应用的基础模块,例如推荐系统、图相关任务和知识库等。


计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05(下)+https://developer.aliyun.com/article/1628938

目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
16 2
|
1天前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
7 0
|
14天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
1天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。
|
9天前
|
算法
基于粒子群算法的分布式电源配电网重构优化matlab仿真
本研究利用粒子群算法(PSO)优化分布式电源配电网重构,通过Matlab仿真验证优化效果,对比重构前后的节点电压、网损、负荷均衡度、电压偏离及线路传输功率,并记录开关状态变化。PSO算法通过迭代更新粒子位置寻找最优解,旨在最小化网络损耗并提升供电可靠性。仿真结果显示优化后各项指标均有显著改善。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
5天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了一种基于WOA优化的GroupCNN分组卷积网络时间序列预测算法。使用Matlab2022a开发,提供无水印运行效果预览及核心代码(含中文注释)。算法通过WOA优化网络结构与超参数,结合分组卷积技术,有效提升预测精度与效率。分组卷积减少了计算成本,而WOA则模拟鲸鱼捕食行为进行优化,适用于多种连续优化问题。
|
7天前
|
机器学习/深度学习 算法 5G
基于BP神经网络的CoSaMP信道估计算法matlab性能仿真,对比LS,OMP,MOMP,CoSaMP
本文介绍了基于Matlab 2022a的几种信道估计算法仿真,包括LS、OMP、NOMP、CoSaMP及改进的BP神经网络CoSaMP算法。各算法针对毫米波MIMO信道进行了性能评估,通过对比不同信噪比下的均方误差(MSE),展示了各自的优势与局限性。其中,BP神经网络改进的CoSaMP算法在低信噪比条件下表现尤为突出,能够有效提高信道估计精度。
20 2
|
16天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
该算法结合了遗传算法(GA)与分组卷积神经网络(GroupCNN),利用GA优化GroupCNN的网络结构和超参数,提升时间序列预测精度与效率。遗传算法通过模拟自然选择过程中的选择、交叉和变异操作寻找最优解;分组卷积则有效减少了计算成本和参数数量。本项目使用MATLAB2022A实现,并提供完整代码及视频教程。注意:展示图含水印,完整程序运行无水印。
|
15天前
|
算法 决策智能
基于禁忌搜索算法的VRP问题求解matlab仿真,带GUI界面,可设置参数
该程序基于禁忌搜索算法求解车辆路径问题(VRP),使用MATLAB2022a版本实现,并带有GUI界面。用户可通过界面设置参数并查看结果。禁忌搜索算法通过迭代改进当前解,并利用记忆机制避免陷入局部最优。程序包含初始化、定义邻域结构、设置禁忌列表等步骤,最终输出最优路径和相关数据图表。