AI Agent满级进化!骑马种田、办公修图,样样精通,昆仑万维等发布通用Agent新框架

简介: 【7月更文挑战第23天】AI Agent技术迎来突破,昆仑万维联合顶尖学府发布Cradle框架,赋能智能体通用控制能力。Cradle结合大型语言模型与六大核心模块,实现跨场景灵活操控,从游戏到办公软件,无师自通。实验验证其在《荒野大镖客2》等游戏及Chrome、Outlook上的卓越表现。框架开源,促进AI社区进步,但仍需面对实际应用的挑战与安全性考量。[论文](https://arxiv.org/abs/2403.03186)详述创新细节。

近年来,人工智能(AI)领域取得了长足的进步,尤其是在AI Agent(智能体)的研究和开发方面。AI Agent是指能够感知环境、理解任务,并根据任务要求采取适当行动的智能系统。它们在虚拟环境中的特定任务上表现出色,但要实现在各种虚拟场景中的通用控制,仍然面临着巨大的挑战。

最近,来自昆仑万维等机构的研究人员提出了一种名为Cradle(摇篮)的新型AI Agent框架,旨在解决这一问题。Cradle框架基于大型语言模型(LMM)技术,并结合了六个关键模块,以实现对软件的通用控制。

Cradle框架的创新之处在于,它采用了一种名为General Computer Control(GCC)的设置,该设置要求AI Agent通过最统一和标准化的界面与软件进行交互,即使用屏幕截图作为输入,并使用键盘和鼠标操作作为输出。这种设置的目的是减少环境封装的差异,从而提高AI Agent在不同虚拟场景中的泛化能力。

Cradle框架的六个关键模块包括:

  1. 输入理解:该模块负责理解输入的屏幕截图,并将其转换为可操作的信息。这包括图像识别、目标检测和语义理解等任务。
  2. 规划:该模块负责根据任务要求制定高层次的规划,以指导低层次的操作。这包括路径规划、资源管理等任务。
  3. 代码生成:该模块负责根据规划生成可执行的代码,以实现低层次的键盘和鼠标操作。这包括编写脚本、自动化操作等任务。
  4. 执行:该模块负责执行生成的代码,并与软件进行交互。这包括发送键盘和鼠标事件、处理反馈等任务。
  5. 学习:该模块负责从交互中学习,并改进AI Agent的性能。这包括强化学习、模仿学习等任务。
  6. 评估:该模块负责评估AI Agent的性能,并提供反馈以指导进一步的改进。这包括任务完成度、效率等指标的评估。

通过这些模块的协同工作,Cradle框架能够实现对各种软件的通用控制,包括但不限于商业视频游戏、办公软件和图像编辑软件等。在实验中,Cradle框架在四个以前未探索过的商业视频游戏中表现出色,包括《荒野大镖客2》、《城市:天际线》、《星露谷物语》和《Dealer's Life 2》。此外,Cradle框架还能够操作日常软件,如Chrome、Outlook和飞书,以及编辑图像和视频使用美图秀秀和CapCut。

Cradle框架的提出,为AI Agent的研究和应用开辟了新的方向。首先,它通过GCC设置和六个关键模块的结合,实现了对软件的通用控制,从而大大扩展了AI Agent的应用范围。其次,Cradle框架的灵活性和可扩展性使得它能够适应各种不同的任务和环境,从而提高了AI Agent的适应性和鲁棒性。最后,Cradle框架的开源性和可复用性使得它能够促进整个AI社区的研究和合作,从而加速AI技术的发展和应用。

然而,Cradle框架也存在一些挑战和限制。首先,尽管Cradle框架在实验中表现出色,但在实际应用中可能仍然存在一些问题,如性能下降、错误处理等。其次,Cradle框架的通用性也带来了一些安全和隐私问题,如代码生成的可靠性、数据保护等。最后,Cradle框架的实现和部署也需要大量的计算资源和专业知识,这可能限制了它的广泛应用。

论文地址:https://arxiv.org/abs/2403.03186

目录
相关文章
|
5月前
|
人工智能 监控 安全
员工使用第三方AI办公的风险与解决方案:从三星案例看AI的数据防泄漏
生成式AI提升办公效率,也带来数据泄露风险。三星、迪士尼案例揭示敏感信息外泄隐患。AI-FOCUS团队建议构建“流式网关+DLP”防护体系,实现分级管控、全程审计,平衡安全与创新。
|
6月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2558 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
6月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
2126 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
6月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
1561 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
455 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
5月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
394 6
|
5月前
|
缓存 API 调度
70_大模型服务部署技术对比:从框架到推理引擎
在2025年的大模型生态中,高效的服务部署技术已成为连接模型能力与实际应用的关键桥梁。随着大模型参数规模的不断扩大和应用场景的日益复杂,如何在有限的硬件资源下实现高性能、低延迟的推理服务,成为了所有大模型应用开发者面临的核心挑战。
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
1597 62
AI经营|多Agent择优生成商品标题
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
1374 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
885 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务

热门文章

最新文章