计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(下)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(下)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)+https://developer.aliyun.com/article/1628960

3. Agent S: An Open Agentic Framework that Uses Computers Like a Human

Authors: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric

Wang

https://arxiv.org/abs/2410.08164

代码: https://github.com/simular-ai/Agent-S.

Agent S:一个像人类一样使用计算机的开放智能框架

摘要

本文介绍了Agent S,这是一个能够通过图形用户界面(GUI)与计算机进行自主交互的开放智能框架,旨在通过自动化复杂、多步骤的任务来改变人机交互。Agent S 旨在解决在自动化计算机任务中面临的三个关键挑战:获取特定领域的知识、在长期任务规划中进行规划以及处理动态、不统一的界面。为此,Agent S 引入了经验增强的分层规划,通过外部知识搜索和内部经验检索在多个层面上进行学习,从而促进高效的任务规划和子任务执行。此外,它采用了一种特定的Agent-Computer Interface(ACI),以更好地激发基于多模态大型语言模型(MLLMs)的GUI代理的推理和控制能力。在OSWorld基准测试中的评估显示,Agent S 的成功率比基线高出9.37%(相对提高了83.6%),达到了新的最高水平。全面的分析突出了各个组成部分的有效性,并为未来的改进提供了见解。此外,Agent S 在新发布的WindowsAgentArena基准测试中展示了广泛的通用性,适用于不同的操作系统。代码可在GitHub上获得。

研究背景

自从鼠标被发明以来,它一直由人类控制以与计算机进行交互。但是,这种交互是否必须如此?自主图形用户界面(GUI)代理提供了解决非常具体和高度多样化的用户查询的希望——例如,为个人用户进行数据输入、调度和文档创建,以及在商业环境中简化操作——以最通用的方式:通过直接UI交互使用鼠标和键盘。此外,通过消除对持续手动交互的需求,这些代理不仅提高了效率,还提高了可访问性,使残疾人能够以新的、变革性的方式与技术进行交互。最近在多模态大型语言模型(MLLMs)方面的进展,例如GPT-4o和Claude,为开发以人为中心的交互系统(如桌面操作系统)的GUI代理奠定了基础。

算法模型

Agent S框架通过经验增强的分层规划、自我监督的持续记忆更新和精确的GUI感知和行动的Agent-Computer Interface(ACI),整合了三个主要策略来解决复杂的基于GUI的操作系统控制任务。这种分层规划方法利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。叙事记忆包含来自过去交互的高级、抽象的任务经验,为有效的任务规划提供了上下文理解。代理在每个子任务执行过程中监控任务完成进度,并检索详细的、逐步的子任务经验,以动态完善其行动并不断提高其规划能力。

核心创新点

  1. 经验增强的分层规划:Agent S利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。
  2. 叙事记忆和情景记忆:叙事记忆包含成功和失败轨迹的摘要,而情景记忆包含完整的计划,具有特定的基础行动。
  3. Agent-Computer Interface(ACI):ACI定义了一种交互范式,使用视觉输入和图像增强的可访问性树进行精确的元素定位,并使用语言基础的原语来生成环境转换。

实验效果

在OSWorld基准测试中,Agent S在成功率上比基线模型高出9.37%,相对提高了83.6%,达到了新的最高水平。在WindowsAgentArena基准测试中,Agent S在没有任何明确适应的情况下,性能从13.3%提高到18.2%,展示了对不同操作系统的广泛通用性。

后续潜在研究方向

  1. 考虑任务完成所需的代理步骤和墙钟时间,未来的工作可以考虑GUI控制的最短路径导航公式,并在时间和准确性的维度上评估各种代理的帕累托最优性。
  2. 将经验增强和Agent Computer Interface的思想扩展到更小的、开源的MLLMs,这些MLLMs可以被微调以弥补差距。

推荐阅读指数:4

4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines

Authors: Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu

https://arxiv.org/abs/2410.07896

执行算术:将大型语言模型微调为图灵机

摘要

本文提出了一个可组合的算术执行框架(CAEF),使大型语言模型(LLMs)能够通过模拟图灵机来学习逐步执行计算,从而真正理解计算逻辑。此外,该框架具有高度的可扩展性,允许通过组合学习到的运算符来显著降低学习复杂运算符的难度。在评估中,CAEF在七个常见的数学运算上实现了近100%的准确率,有效地支持了涉及多达100位操作数的计算,这是GPT-4o在某些设置中明显不足的。

研究背景

尽管LLMs在自然语言处理和推理任务中表现出色,但在算术领域的性能仍然不尽人意。LLMs在处理算术任务时,往往通过记忆特定的例子而不是学习底层的计算逻辑,限制了它们对新问题的泛化能力。

算法模型

CAEF框架包括执行器(executor)和对齐器(aligner)两个独立组件。执行器负责执行实际的计算,通过模拟相应算术图灵机的转移函数来学习底层的计算逻辑。对齐器作为接口,将原始算术表达式(例如89×2=)转换为执行器可以直接处理的格式。执行器完成后,对齐器将执行器的输出转换回最终结果。

核心创新点

  • 提出了一个三步流程,每个算术运算符都由执行器和对齐器支持。
  • 设计了一个执行器作曲器,负责复杂运算符的高级执行程序,并允许函数调用来调用其他预学习的算术运算符。
  • 实现了七个运算符:+、−、×、÷、>、<和==,以及两个辅助运算符。

实验效果

  • CAEF在所有七个运算符上都实现了高准确率,即使在操作数长达100位的情况下。
  • 与GPT-4o相比,配备CAEF的LLM在操作数长度变化时的影响最小,有效支持了长达100位的操作数计算。

后续潜在研究方向

  • 探索如何将CAEF框架应用于更复杂的数学问题和计算任务。
  • 研究如何进一步优化执行器和对齐器的性能,以提高计算效率。
  • 考虑如何将CAEF框架与其他类型的计算模型和算法相结合,以扩展其应用范围。

推荐阅读指数:4.5

5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation

Authors: Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell,

Tomas Bueno Momcilovic

https://arxiv.org/abs/2410.07962

使用本体驱动论证确保LLM对抗性鲁棒性

摘要

尽管大型语言模型(LLMs)在各种自然和领域特定语言任务中显示出了适应性,但在确保它们的安全性、透明度和可解释性方面仍存在挑战。鉴于LLMs对对抗性攻击的敏感性,需要通过不断演变的对抗性训练和防护措施来防御LLMs。然而,管理

隐含和异构知识以持续确保鲁棒性是困难的。我们引入了一种新的方法,基于形式化论证来确保LLMs的对抗性鲁棒性。使用本体论进行形式化,我们结构化了最先进的攻击和防御,促进了人类可读的保证案例的创建,以及机器可读的表示。我们通过英语语言和代码翻译任务中的示例展示了其应用,并针对工程师、数据科学家、用户和审计员提供了理论和实践上的影响。

研究背景

LLMs在自然和编程语言任务中展现出了预测、翻译和生成文本的能力。然而,它们对对抗性攻击的脆弱性,如通过恶意提示绕过防护措施或模型对齐以获得有害输出,使得它们的安全性和鲁棒性成为研究的重点。

算法模型

文章提出了一种基于本体论驱动论证的方法,通过形式化攻击和防御的关系,以及变量(如攻击成功率、字符类型)的值,来构建人类可读的保证案例和机器可读的语义网络。

核心创新点

  • 提出了一种新的方法,使用本体论来形式化LLMs的攻击和防御知识,并构建保证案例。
  • 通过本体论模型,允许基于人类可读的保证案例进行形式化论证,从而创建共享的关于训练、防护措施和实施的理解。
  • 展示了如何在自然语言任务和代码翻译任务中应用这种方法,以及如何通过查询中心仓库中的参数值来进行持续推理。

实验效果

文章没有提供具体的实验数据,但通过示例展示了该方法在不同任务中的应用潜力。

后续潜在研究方向

  • 探索如何将这种方法应用于更广泛的LLM应用领域和任务。
  • 研究如何进一步优化本体论模型和保证案例的结构,以提高其可扩展性和自动化程度。
  • 考虑如何将这种方法与其他类型的AI技术和方法相结合,以提高整体系统的安全性和鲁棒性。

推荐阅读指数:3.5


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
10天前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
35 7
|
6天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
8天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
10天前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
25 1
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的无限可能:技术前沿与应用实践
【10月更文挑战第23天】探索人工智能的无限可能:技术前沿与应用实践
|
20天前
|
人工智能 算法 自动驾驶
人工智能的伦理困境:技术发展与社会责任的平衡
在人工智能(AI)技术飞速发展的今天,我们面临着一个前所未有的伦理困境。本文将探讨AI技术带来的挑战,以及如何在技术创新与社会责任之间找到平衡点。我们将从隐私保护、就业影响、算法偏见等方面进行分析,并提出相应的解决方案。
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能:从基础到应用的技术之旅
【10月更文挑战第23天】探索人工智能:从基础到应用的技术之旅
|
3天前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用