计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)+https://developer.aliyun.com/article/1628960
3. Agent S: An Open Agentic Framework that Uses Computers Like a Human
Authors: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric
Wang
https://arxiv.org/abs/2410.08164
代码: https://github.com/simular-ai/Agent-S.
Agent S:一个像人类一样使用计算机的开放智能框架
摘要:
本文介绍了Agent S,这是一个能够通过图形用户界面(GUI)与计算机进行自主交互的开放智能框架,旨在通过自动化复杂、多步骤的任务来改变人机交互。Agent S 旨在解决在自动化计算机任务中面临的三个关键挑战:获取特定领域的知识、在长期任务规划中进行规划以及处理动态、不统一的界面。为此,Agent S 引入了经验增强的分层规划,通过外部知识搜索和内部经验检索在多个层面上进行学习,从而促进高效的任务规划和子任务执行。此外,它采用了一种特定的Agent-Computer Interface(ACI),以更好地激发基于多模态大型语言模型(MLLMs)的GUI代理的推理和控制能力。在OSWorld基准测试中的评估显示,Agent S 的成功率比基线高出9.37%(相对提高了83.6%),达到了新的最高水平。全面的分析突出了各个组成部分的有效性,并为未来的改进提供了见解。此外,Agent S 在新发布的WindowsAgentArena基准测试中展示了广泛的通用性,适用于不同的操作系统。代码可在GitHub上获得。
研究背景:
自从鼠标被发明以来,它一直由人类控制以与计算机进行交互。但是,这种交互是否必须如此?自主图形用户界面(GUI)代理提供了解决非常具体和高度多样化的用户查询的希望——例如,为个人用户进行数据输入、调度和文档创建,以及在商业环境中简化操作——以最通用的方式:通过直接UI交互使用鼠标和键盘。此外,通过消除对持续手动交互的需求,这些代理不仅提高了效率,还提高了可访问性,使残疾人能够以新的、变革性的方式与技术进行交互。最近在多模态大型语言模型(MLLMs)方面的进展,例如GPT-4o和Claude,为开发以人为中心的交互系统(如桌面操作系统)的GUI代理奠定了基础。
算法模型:
Agent S框架通过经验增强的分层规划、自我监督的持续记忆更新和精确的GUI感知和行动的Agent-Computer Interface(ACI),整合了三个主要策略来解决复杂的基于GUI的操作系统控制任务。这种分层规划方法利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。叙事记忆包含来自过去交互的高级、抽象的任务经验,为有效的任务规划提供了上下文理解。代理在每个子任务执行过程中监控任务完成进度,并检索详细的、逐步的子任务经验,以动态完善其行动并不断提高其规划能力。
核心创新点:
- 经验增强的分层规划:Agent S利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。
- 叙事记忆和情景记忆:叙事记忆包含成功和失败轨迹的摘要,而情景记忆包含完整的计划,具有特定的基础行动。
- Agent-Computer Interface(ACI):ACI定义了一种交互范式,使用视觉输入和图像增强的可访问性树进行精确的元素定位,并使用语言基础的原语来生成环境转换。
实验效果:
在OSWorld基准测试中,Agent S在成功率上比基线模型高出9.37%,相对提高了83.6%,达到了新的最高水平。在WindowsAgentArena基准测试中,Agent S在没有任何明确适应的情况下,性能从13.3%提高到18.2%,展示了对不同操作系统的广泛通用性。
后续潜在研究方向:
- 考虑任务完成所需的代理步骤和墙钟时间,未来的工作可以考虑GUI控制的最短路径导航公式,并在时间和准确性的维度上评估各种代理的帕累托最优性。
- 将经验增强和Agent Computer Interface的思想扩展到更小的、开源的MLLMs,这些MLLMs可以被微调以弥补差距。
推荐阅读指数:4
4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines
Authors: Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu
https://arxiv.org/abs/2410.07896
执行算术:将大型语言模型微调为图灵机
摘要:
本文提出了一个可组合的算术执行框架(CAEF),使大型语言模型(LLMs)能够通过模拟图灵机来学习逐步执行计算,从而真正理解计算逻辑。此外,该框架具有高度的可扩展性,允许通过组合学习到的运算符来显著降低学习复杂运算符的难度。在评估中,CAEF在七个常见的数学运算上实现了近100%的准确率,有效地支持了涉及多达100位操作数的计算,这是GPT-4o在某些设置中明显不足的。
研究背景:
尽管LLMs在自然语言处理和推理任务中表现出色,但在算术领域的性能仍然不尽人意。LLMs在处理算术任务时,往往通过记忆特定的例子而不是学习底层的计算逻辑,限制了它们对新问题的泛化能力。
算法模型:
CAEF框架包括执行器(executor)和对齐器(aligner)两个独立组件。执行器负责执行实际的计算,通过模拟相应算术图灵机的转移函数来学习底层的计算逻辑。对齐器作为接口,将原始算术表达式(例如89×2=)转换为执行器可以直接处理的格式。执行器完成后,对齐器将执行器的输出转换回最终结果。
核心创新点:
- 提出了一个三步流程,每个算术运算符都由执行器和对齐器支持。
- 设计了一个执行器作曲器,负责复杂运算符的高级执行程序,并允许函数调用来调用其他预学习的算术运算符。
- 实现了七个运算符:+、−、×、÷、>、<和==,以及两个辅助运算符。
实验效果:
- CAEF在所有七个运算符上都实现了高准确率,即使在操作数长达100位的情况下。
- 与GPT-4o相比,配备CAEF的LLM在操作数长度变化时的影响最小,有效支持了长达100位的操作数计算。
后续潜在研究方向:
- 探索如何将CAEF框架应用于更复杂的数学问题和计算任务。
- 研究如何进一步优化执行器和对齐器的性能,以提高计算效率。
- 考虑如何将CAEF框架与其他类型的计算模型和算法相结合,以扩展其应用范围。
推荐阅读指数:4.5
5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation
Authors: Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell,
Tomas Bueno Momcilovic
https://arxiv.org/abs/2410.07962
使用本体驱动论证确保LLM对抗性鲁棒性
摘要:
尽管大型语言模型(LLMs)在各种自然和领域特定语言任务中显示出了适应性,但在确保它们的安全性、透明度和可解释性方面仍存在挑战。鉴于LLMs对对抗性攻击的敏感性,需要通过不断演变的对抗性训练和防护措施来防御LLMs。然而,管理
隐含和异构知识以持续确保鲁棒性是困难的。我们引入了一种新的方法,基于形式化论证来确保LLMs的对抗性鲁棒性。使用本体论进行形式化,我们结构化了最先进的攻击和防御,促进了人类可读的保证案例的创建,以及机器可读的表示。我们通过英语语言和代码翻译任务中的示例展示了其应用,并针对工程师、数据科学家、用户和审计员提供了理论和实践上的影响。
研究背景:
LLMs在自然和编程语言任务中展现出了预测、翻译和生成文本的能力。然而,它们对对抗性攻击的脆弱性,如通过恶意提示绕过防护措施或模型对齐以获得有害输出,使得它们的安全性和鲁棒性成为研究的重点。
算法模型:
文章提出了一种基于本体论驱动论证的方法,通过形式化攻击和防御的关系,以及变量(如攻击成功率、字符类型)的值,来构建人类可读的保证案例和机器可读的语义网络。
核心创新点:
- 提出了一种新的方法,使用本体论来形式化LLMs的攻击和防御知识,并构建保证案例。
- 通过本体论模型,允许基于人类可读的保证案例进行形式化论证,从而创建共享的关于训练、防护措施和实施的理解。
- 展示了如何在自然语言任务和代码翻译任务中应用这种方法,以及如何通过查询中心仓库中的参数值来进行持续推理。
实验效果:
文章没有提供具体的实验数据,但通过示例展示了该方法在不同任务中的应用潜力。
后续潜在研究方向:
- 探索如何将这种方法应用于更广泛的LLM应用领域和任务。
- 研究如何进一步优化本体论模型和保证案例的结构,以提高其可扩展性和自动化程度。
- 考虑如何将这种方法与其他类型的AI技术和方法相结合,以提高整体系统的安全性和鲁棒性。
推荐阅读指数:3.5
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。