计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(下)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(下)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)+https://developer.aliyun.com/article/1628960

3. Agent S: An Open Agentic Framework that Uses Computers Like a Human

Authors: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric

Wang

https://arxiv.org/abs/2410.08164

代码: https://github.com/simular-ai/Agent-S.

Agent S:一个像人类一样使用计算机的开放智能框架

摘要

本文介绍了Agent S,这是一个能够通过图形用户界面(GUI)与计算机进行自主交互的开放智能框架,旨在通过自动化复杂、多步骤的任务来改变人机交互。Agent S 旨在解决在自动化计算机任务中面临的三个关键挑战:获取特定领域的知识、在长期任务规划中进行规划以及处理动态、不统一的界面。为此,Agent S 引入了经验增强的分层规划,通过外部知识搜索和内部经验检索在多个层面上进行学习,从而促进高效的任务规划和子任务执行。此外,它采用了一种特定的Agent-Computer Interface(ACI),以更好地激发基于多模态大型语言模型(MLLMs)的GUI代理的推理和控制能力。在OSWorld基准测试中的评估显示,Agent S 的成功率比基线高出9.37%(相对提高了83.6%),达到了新的最高水平。全面的分析突出了各个组成部分的有效性,并为未来的改进提供了见解。此外,Agent S 在新发布的WindowsAgentArena基准测试中展示了广泛的通用性,适用于不同的操作系统。代码可在GitHub上获得。

研究背景

自从鼠标被发明以来,它一直由人类控制以与计算机进行交互。但是,这种交互是否必须如此?自主图形用户界面(GUI)代理提供了解决非常具体和高度多样化的用户查询的希望——例如,为个人用户进行数据输入、调度和文档创建,以及在商业环境中简化操作——以最通用的方式:通过直接UI交互使用鼠标和键盘。此外,通过消除对持续手动交互的需求,这些代理不仅提高了效率,还提高了可访问性,使残疾人能够以新的、变革性的方式与技术进行交互。最近在多模态大型语言模型(MLLMs)方面的进展,例如GPT-4o和Claude,为开发以人为中心的交互系统(如桌面操作系统)的GUI代理奠定了基础。

算法模型

Agent S框架通过经验增强的分层规划、自我监督的持续记忆更新和精确的GUI感知和行动的Agent-Computer Interface(ACI),整合了三个主要策略来解决复杂的基于GUI的操作系统控制任务。这种分层规划方法利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。叙事记忆包含来自过去交互的高级、抽象的任务经验,为有效的任务规划提供了上下文理解。代理在每个子任务执行过程中监控任务完成进度,并检索详细的、逐步的子任务经验,以动态完善其行动并不断提高其规划能力。

核心创新点

  1. 经验增强的分层规划:Agent S利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。
  2. 叙事记忆和情景记忆:叙事记忆包含成功和失败轨迹的摘要,而情景记忆包含完整的计划,具有特定的基础行动。
  3. Agent-Computer Interface(ACI):ACI定义了一种交互范式,使用视觉输入和图像增强的可访问性树进行精确的元素定位,并使用语言基础的原语来生成环境转换。

实验效果

在OSWorld基准测试中,Agent S在成功率上比基线模型高出9.37%,相对提高了83.6%,达到了新的最高水平。在WindowsAgentArena基准测试中,Agent S在没有任何明确适应的情况下,性能从13.3%提高到18.2%,展示了对不同操作系统的广泛通用性。

后续潜在研究方向

  1. 考虑任务完成所需的代理步骤和墙钟时间,未来的工作可以考虑GUI控制的最短路径导航公式,并在时间和准确性的维度上评估各种代理的帕累托最优性。
  2. 将经验增强和Agent Computer Interface的思想扩展到更小的、开源的MLLMs,这些MLLMs可以被微调以弥补差距。

推荐阅读指数:4

4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines

Authors: Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu

https://arxiv.org/abs/2410.07896

执行算术:将大型语言模型微调为图灵机

摘要

本文提出了一个可组合的算术执行框架(CAEF),使大型语言模型(LLMs)能够通过模拟图灵机来学习逐步执行计算,从而真正理解计算逻辑。此外,该框架具有高度的可扩展性,允许通过组合学习到的运算符来显著降低学习复杂运算符的难度。在评估中,CAEF在七个常见的数学运算上实现了近100%的准确率,有效地支持了涉及多达100位操作数的计算,这是GPT-4o在某些设置中明显不足的。

研究背景

尽管LLMs在自然语言处理和推理任务中表现出色,但在算术领域的性能仍然不尽人意。LLMs在处理算术任务时,往往通过记忆特定的例子而不是学习底层的计算逻辑,限制了它们对新问题的泛化能力。

算法模型

CAEF框架包括执行器(executor)和对齐器(aligner)两个独立组件。执行器负责执行实际的计算,通过模拟相应算术图灵机的转移函数来学习底层的计算逻辑。对齐器作为接口,将原始算术表达式(例如89×2=)转换为执行器可以直接处理的格式。执行器完成后,对齐器将执行器的输出转换回最终结果。

核心创新点

  • 提出了一个三步流程,每个算术运算符都由执行器和对齐器支持。
  • 设计了一个执行器作曲器,负责复杂运算符的高级执行程序,并允许函数调用来调用其他预学习的算术运算符。
  • 实现了七个运算符:+、−、×、÷、>、<和==,以及两个辅助运算符。

实验效果

  • CAEF在所有七个运算符上都实现了高准确率,即使在操作数长达100位的情况下。
  • 与GPT-4o相比,配备CAEF的LLM在操作数长度变化时的影响最小,有效支持了长达100位的操作数计算。

后续潜在研究方向

  • 探索如何将CAEF框架应用于更复杂的数学问题和计算任务。
  • 研究如何进一步优化执行器和对齐器的性能,以提高计算效率。
  • 考虑如何将CAEF框架与其他类型的计算模型和算法相结合,以扩展其应用范围。

推荐阅读指数:4.5

5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation

Authors: Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell,

Tomas Bueno Momcilovic

https://arxiv.org/abs/2410.07962

使用本体驱动论证确保LLM对抗性鲁棒性

摘要

尽管大型语言模型(LLMs)在各种自然和领域特定语言任务中显示出了适应性,但在确保它们的安全性、透明度和可解释性方面仍存在挑战。鉴于LLMs对对抗性攻击的敏感性,需要通过不断演变的对抗性训练和防护措施来防御LLMs。然而,管理

隐含和异构知识以持续确保鲁棒性是困难的。我们引入了一种新的方法,基于形式化论证来确保LLMs的对抗性鲁棒性。使用本体论进行形式化,我们结构化了最先进的攻击和防御,促进了人类可读的保证案例的创建,以及机器可读的表示。我们通过英语语言和代码翻译任务中的示例展示了其应用,并针对工程师、数据科学家、用户和审计员提供了理论和实践上的影响。

研究背景

LLMs在自然和编程语言任务中展现出了预测、翻译和生成文本的能力。然而,它们对对抗性攻击的脆弱性,如通过恶意提示绕过防护措施或模型对齐以获得有害输出,使得它们的安全性和鲁棒性成为研究的重点。

算法模型

文章提出了一种基于本体论驱动论证的方法,通过形式化攻击和防御的关系,以及变量(如攻击成功率、字符类型)的值,来构建人类可读的保证案例和机器可读的语义网络。

核心创新点

  • 提出了一种新的方法,使用本体论来形式化LLMs的攻击和防御知识,并构建保证案例。
  • 通过本体论模型,允许基于人类可读的保证案例进行形式化论证,从而创建共享的关于训练、防护措施和实施的理解。
  • 展示了如何在自然语言任务和代码翻译任务中应用这种方法,以及如何通过查询中心仓库中的参数值来进行持续推理。

实验效果

文章没有提供具体的实验数据,但通过示例展示了该方法在不同任务中的应用潜力。

后续潜在研究方向

  • 探索如何将这种方法应用于更广泛的LLM应用领域和任务。
  • 研究如何进一步优化本体论模型和保证案例的结构,以提高其可扩展性和自动化程度。
  • 考虑如何将这种方法与其他类型的AI技术和方法相结合,以提高整体系统的安全性和鲁棒性。

推荐阅读指数:3.5


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
6天前
|
监控 算法 安全
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
22 6
|
8天前
|
缓存 监控 算法
基于 C# 网络套接字算法的局域网实时监控技术探究
在数字化办公与网络安全需求增长的背景下,局域网实时监控成为企业管理和安全防护的关键。本文介绍C#网络套接字算法在局域网实时监控中的应用,涵盖套接字创建、绑定监听、连接建立和数据传输等操作,并通过代码示例展示其实现方式。服务端和客户端通过套接字进行屏幕截图等数据的实时传输,保障网络稳定与信息安全。同时,文章探讨了算法的优缺点及优化方向,如异步编程、数据压缩与缓存、错误处理与重传机制,以提升系统性能。
31 2
|
15天前
|
监控 网络协议 算法
基于问题“如何监控局域网内的电脑”——Node.js 的 ARP 扫描算法实现局域网内计算机监控的技术探究
在网络管理与安全领域,监控局域网内计算机至关重要。本文探讨基于Node.js的ARP扫描算法,通过获取IP和MAC地址实现有效监控。使用`arp`库安装(`npm install arp`)并编写代码,可定期扫描并对比设备列表,判断设备上线和下线状态。此技术适用于企业网络管理和家庭网络安全防护,未来有望进一步提升效率与准确性。
32 8
|
12天前
|
存储 缓存 监控
企业监控软件中 Go 语言哈希表算法的应用研究与分析
在数字化时代,企业监控软件对企业的稳定运营至关重要。哈希表(散列表)作为高效的数据结构,广泛应用于企业监控中,如设备状态管理、数据分类和缓存机制。Go 语言中的 map 实现了哈希表,能快速处理海量监控数据,确保实时准确反映设备状态,提升系统性能,助力企业实现智能化管理。
27 3
|
1月前
|
监控 算法 安全
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
42 10
|
14天前
|
存储 算法 安全
基于 Go 语言的公司内网管理软件哈希表算法深度解析与研究
在数字化办公中,公司内网管理软件通过哈希表算法保障信息安全与高效管理。哈希表基于键值对存储和查找,如用户登录验证、设备信息管理和文件权限控制等场景,Go语言实现的哈希表能快速验证用户信息,提升管理效率,确保网络稳定运行。
26 0
|
2月前
|
机器学习/深度学习 人工智能 运维
人工智能在事件管理中的应用
人工智能在事件管理中的应用
112 21
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在现代医疗中的革新应用
本文深入探讨了人工智能(AI)技术在医疗领域的最新进展,重点分析了AI如何通过提高诊断准确性、个性化治疗方案的制定以及优化患者管理流程来革新现代医疗。文章还讨论了AI技术面临的挑战和未来发展趋势,为读者提供了一个全面了解AI在医疗领域应用的视角。
108 11
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在医疗诊断中的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战及未来发展趋势。通过分析AI如何辅助医生进行疾病诊断,提高诊断效率和准确性,以及其在个性化医疗中的潜力,文章揭示了AI技术对医疗行业变革的推动作用。同时,也指出了数据隐私、算法偏见等伦理问题,并展望了AI与人类医生协同工作的前景。 ####
311 0
|
10天前
|
人工智能 大数据 云计算
人工智能通识教育与应用实践
人工智能通识教育与应用实践