计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15

1. Agents Thinking Fast and Slow: A Talker-Reasoner Architecture

Authors: Konstantina Christakopoulou, Shibl Mourad, Maja Matari’c

https://arxiv.org/abs/2410.08328

快速思考与慢速思考的代理:一种说话者-推理者架构

摘要:

本文介绍了一种新的人工智能代理架构,该架构模仿人类的快速和慢速思考系统。通过将代理分为两个部分——快速直观的“说话者”代理和慢速、逻辑性强的“推理者”代理——来提高代理的对话和推理能力。这种架构具有模块化和降低延迟的优势,特别适合于需要多步推理和规划的场景。

问题背景:

大型语言模型的发展使得AI代理能够通过自然对话与用户互动。这些代理需要同时进行对话和规划/推理,这两者之间的差异类似于人类快速和慢速思考系统。为了提高AI代理在复杂任务中的性能,需要一种新的架构来模拟这两种思考方式。

算法模型:

该模型包括两个主要部分:说话者(Talker)和推理者(Reasoner)。说话者负责生成与用户的对话,而推理者负责执行多步规划和推理。两者通过记忆进行交互,推理者更新信念状态并存储在记忆中,说话者在需要时从记忆中检索这些信息。

算法创新点:

  • 提出了一种新的双系统架构,模拟人类的快速和慢速思考过程。
  • 通过将任务分解为两个代理,优化了性能并减少了延迟。
  • 允许说话者在不需要等待推理者完成复杂推理的情况下进行对话,提高了响应速度。

实验效果:

通过在睡眠辅导代理中的应用案例,展示了该架构在实际环境中的有效性。实验结果表明,该架构能够处理快速直观的对话,并由推理者开发复杂的计划和信念状态。

重要数据结论:

实验结果表明,该架构在处理复杂任务时能够显著提高效率,并且在多步规划和推理方面表现出色。

2. Large Legislative Models: Towards Efficient AI Policymaking in Economic Simulations

Authors: Henry Gasztowtt, Benjamin Smith, Vincent Zhu, Qinxun Bai, Edwin Zhang

https://arxiv.org/abs/2410.08345

大型立法模型:在经济模拟中实现高效的AI政策制定

摘要:

本文提出了一种新的方法,使用预训练的大型语言模型(LLMs)作为多智能体强化学习(MARL)场景中的样本高效政策制定者。该方法在三个环境中展示了显著的效率提升,超越了现有方法。

问题背景:

经济政策制定是一个充满不确定性、高风险和复杂的领域。人类政策制定者常常面临海量数据和利益集团的影响,这使得有效和公平的决策变得复杂。AI驱动的工具能够快速处理大量数据,避免自我中心的偏见,因此可以提供显著的帮助。

算法模型:

该研究提出了一种使用预训练的LLMs作为政策制定者的方法。这种方法不依赖于学习经济政策生成器,而是直接通过应用LLMs的上下文学习(ICL)能力来学习经济政策。

算法伪代码:

算法创新点:

  • 提出了一种新的基于LLMs的自动化政策制定方法,该方法通过使用上下文学习和历史观察来简化政策制定过程。
  • 该方法在输入方面具有高度的灵活性,可以结合人类专家的经济报告来提高样本效率。

实验效果:

在三个多智能体测试环境中,该方法在样本效率方面显著优于五个基线方法,且在最终的渐近性能上没有太大的妥协。

重要数据结论:

在“Commons Harvest Open”环境中,该方法展示了比所有基线更好的样本效率。每个方法都在10个种子上运行。

3. GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation

Authors: Jiashu He, Mingyu Derek Ma, Jinxuan Fan, Dan Roth, Wei Wang, Alejandro Ribeiro

https://arxiv.org/abs/2410.08475

GIVE:基于知识图谱启发的真实性外推结构化推理

摘要:

现有的基于检索的大型语言模型(LLMs)推理方法严重依赖于非参数知识源的密度和质量,以提供领域知识和明确的推理链。然而,对于科学或特定领域的知识库来说,全面的资源构建既昂贵又有时不切实际。为了应对这些挑战,我们引入了一种新的推理框架GIVE,该框架整合了参数和非参数记忆,以增强在非常稀疏的知识图谱上的知识和检索和忠实推理过程。通过利用外部结构化知识激发LLM模拟相关概念之间的相互联系,我们的方法促进了一种更符合专家解决问题的逻辑和逐步推理方法,而不是检索黄金答案。具体来说,该框架提示LLM将查询分解为关键概念和属性,构建具有相关实体的实体组,并通过对这些实体组中的节点对之间的潜在关系进行探测,构建增强的推理链。我们的方法结合了事实和外推链接,以实现全面的理解和响应生成。在生物医学和常识问答上的推理强度基准测试中的广泛实验证明了我们提出的方法的有效性。具体来说,GIVE使GPT3.5-turbo能够在没有任何额外训练成本的情况下超越GPT4等先进模型,从而强调了整合结构化信息和LLM的内部推理能力,以应对有限外部资源的专业任务的有效性。

问题背景:

大型语言模型(LLMs)已显示出能够生成流畅的语言、回答问题以及从给定文本中诱导知识。尽管在一般问题回答中表现出色,但在需要特定领域知识的科学领域或设置中,我们并没有看到类似的成功水平。LLMs的两个技术劣势可能解释了这一不满意的表现。一方面,LLMs不了解专业领域知识,这些知识不是通过训练获得的,需要不断更新。另一方面,LLMs没有配备专业知识来制定多步骤逻辑链以识别和解决问题。

算法模型:

GIVE框架提示LLMs将查询分解为关键概念和属性,构建实体组,并通过探测这些实体组中的节点对之间的潜在关系来构建增强的推理链。该方法结合了事实和外推链接,以实现全面的理解和响应生成。

算法创新点:

  • 提出了一种新的推理框架GIVE,该框架整合了参数和非参数记忆,以增强在非常稀疏的知识图谱上的知识和检索和忠实推理过程。
  • 通过利用外部结构化知识激发LLM模拟相关概念之间的相互联系,促进了一种更符合专家解决问题的逻辑和逐步推理方法。

实验效果:

在生物医学和常识问答上的推理强度基准测试中的广泛实验证明了我们提出的方法的有效性。GIVE使GPT3.5-turbo能够在没有任何额外训练成本的情况下超越GPT4等先进模型。

重要数据结论:

在生物医学和常识问答基准测试中,GIVE在所有基于推理和检索的基线中一致地实现了最佳性能。特别是在生物医学问答任务中,GIVE为GPT3.5-turbo提供了比GPT4高出44.7%的准确率提升。

4. Words as Beacons: Guiding RL Agents with High-Level Language Prompts

Authors: Unai Ruiz-Gonzalez, Alain Andres, Pedro G.Bascoy, Javier Del Ser

https://arxiv.org/abs/2410.08632

词语作为信标:用高级语言提示引导RL代理

摘要:

在强化学习(RL)中,稀疏奖励环境对探索提出了重大挑战,常常导致学习过程效率低下或不完整。为了解决这个问题,本文提出了一个教师-学生RL框架,利用大型语言模型(LLMs)作为“教师”来指导智能体的学习过程,通过将复杂任务分解为子目标。由于LLMs固有的能力,能够根据环境的结构和目的的文本描述来理解RL环境,因此可以像人类一样提供完成任务的子目标。通过这样做,提出了三种类型的子目标:相对于智能体的位置目标、对象表示,以及直接由LLM生成的语言指令。更重要的是,我们展示了只在整个训练阶段查询LLMs,智能体在环境操作中无需LLMs干预的可能性。我们通过在MiniGrid基准测试中评估三种最先进的开源LLMs(Llama、DeepSeek、Qwen)来评估这种提出的框架的性能,实验结果表明,这种基于课程的方法加速了学习,并在复杂任务中增强了探索,与针对稀疏奖励环境设计的最近基线相比,训练步骤的收敛速度提高了30到200倍。

问题背景:

让我们想象一个场景,我们必须掌握一个新技能,而反馈只在长时间的努力后才提供,即没有指导,没有关于进展的信息,只是无休止的试错。这是许多在稀疏奖励环境中运行的强化学习(RL)智能体的经历,其中反馈的稀缺性使得学习过程缓慢且低效。在这种环境中,传统的随机探索方法——智能体通过尝试不同的动作并偶尔获得奖励来学习——往往不够。这种探索策略固有的随机性带来了重大的学习挑战,因为智能体必须依赖偶然性来遇到有奖励的状态。没有频繁或一致的反馈,智能体可能会花费大量时间探索无关或无效的动作,使得学习过程资源密集。然而,尽管取得了令人印象深刻的成就,RL智能体在奖励不频繁且学习变得更具挑战性的环境中仍然需要帮助。

算法模型:

该框架引入了子目标的概念,这些子目标由LLMs生成,分为三类:与智能体相对的位置目标、对象表示,以及由LLM直接生成的语言指令。这些子目标帮助智能体在每个阶段都有明确的目标,从而提高了学习效率。

算法伪代码:

算法创新点:

  • 提出了一种新的教师-学生RL框架,利用LLMs作为教师来生成子目标。
  • 引入了基于位置、表示和语言的三种子目标类型,为智能体提供了更丰富的指导信息。
  • 展示了在训练阶段只需查询LLMs,智能体在环境操作中无需LLMs干预的可能性。

实验效果:

在MiniGrid基准测试中,该方法在各种程序生成的环境中评估了三种最先进的开源LLMs(Llama、DeepSeek、Qwen),实验结果表明该方法可以显著加速学习过程,并提高复杂任务中的探索效率。

重要数据结论:

在MiniGrid环境中,使用LLM生成的子目标的智能体学习速度比基线方法快30至200倍。

5. Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective

Authors: Bo Ni, Yu Wang, Lu Cheng, Erik Blasch, Tyler Derr

https://arxiv.org/abs/2410.08985

走向可信的知识图谱推理:不确定性感知视角

摘要:

本文提出了一种新的知识图谱-大型语言模型(KG-LLM)框架UAG(Uncertainty Aware Knowledge-Graph Reasoning),该框架通过结合不确定性量化技术,提高了KG-LLM在高风险应用中的可靠性。UAG框架设计了一个多步骤推理框架,利用一致性预测提供理论上的预测集保证。实验表明,UAG能够在保持合理预测集大小的同时,实现预定义的覆盖率,并将预测集/区间大小平均减少40%。

问题背景:

虽然KGs与LLMs的结合在减少幻觉和增强推理能力方面取得了成功,但现有的KG-LLM框架缺乏严格的不确定性估计,限制了它们在高风险应用中的可靠部署。

算法模型:

UAG框架包括三个组件:不确定性感知候选检索器、不确定性感知候选评估器和全局错误率控制器。该框架通过在知识图谱中检索初始的不确定性感知答案集,并引导束搜索过程,利用一致性预测实现理论上保证的覆盖率。

算法创新点:

  • 提出了一种新的可信赖KG-LLM框架,该框架整合了不确定性量化技术。
  • 设计了一个不确定性感知的多步骤推理框架,利用一致性预测提供理论上的预测集保证。
  • 引入了错误率控制模块,以调整多步骤过程中的错误率。

实验效果:

在两个广泛使用的多跳知识图谱QA数据集上进行的实验表明,UAG能够在满足不确定性约束的同时,保持合理的预测集大小。

重要数据结论:

UAG在多跳知识图谱QA基准测试中的表现优于基线方法,平均将预测集/区间大小减少了40%,同时实现了预定义的覆盖率。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
411 55
|
2月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
185 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
2天前
|
监控 算法 安全
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
20 6
|
4天前
|
缓存 监控 算法
基于 C# 网络套接字算法的局域网实时监控技术探究
在数字化办公与网络安全需求增长的背景下,局域网实时监控成为企业管理和安全防护的关键。本文介绍C#网络套接字算法在局域网实时监控中的应用,涵盖套接字创建、绑定监听、连接建立和数据传输等操作,并通过代码示例展示其实现方式。服务端和客户端通过套接字进行屏幕截图等数据的实时传输,保障网络稳定与信息安全。同时,文章探讨了算法的优缺点及优化方向,如异步编程、数据压缩与缓存、错误处理与重传机制,以提升系统性能。
21 2
|
11天前
|
监控 网络协议 算法
基于问题“如何监控局域网内的电脑”——Node.js 的 ARP 扫描算法实现局域网内计算机监控的技术探究
在网络管理与安全领域,监控局域网内计算机至关重要。本文探讨基于Node.js的ARP扫描算法,通过获取IP和MAC地址实现有效监控。使用`arp`库安装(`npm install arp`)并编写代码,可定期扫描并对比设备列表,判断设备上线和下线状态。此技术适用于企业网络管理和家庭网络安全防护,未来有望进一步提升效率与准确性。
30 8
|
8天前
|
存储 缓存 监控
企业监控软件中 Go 语言哈希表算法的应用研究与分析
在数字化时代,企业监控软件对企业的稳定运营至关重要。哈希表(散列表)作为高效的数据结构,广泛应用于企业监控中,如设备状态管理、数据分类和缓存机制。Go 语言中的 map 实现了哈希表,能快速处理海量监控数据,确保实时准确反映设备状态,提升系统性能,助力企业实现智能化管理。
25 3
|
24天前
|
监控 算法 安全
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
37 10
|
9天前
|
存储 算法 安全
基于 Go 语言的公司内网管理软件哈希表算法深度解析与研究
在数字化办公中,公司内网管理软件通过哈希表算法保障信息安全与高效管理。哈希表基于键值对存储和查找,如用户登录验证、设备信息管理和文件权限控制等场景,Go语言实现的哈希表能快速验证用户信息,提升管理效率,确保网络稳定运行。
23 0
|
2月前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
94 13
|
3月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
233 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别