AI Agent满级进化!骑马种田、办公修图,样样精通,昆仑万维等发布通用Agent新框架

简介: 【7月更文挑战第23天】AI Agent技术迎来突破,昆仑万维联合顶尖学府发布Cradle框架,赋能智能体通用控制能力。Cradle结合大型语言模型与六大核心模块,实现跨场景灵活操控,从游戏到办公软件,无师自通。实验验证其在《荒野大镖客2》等游戏及Chrome、Outlook上的卓越表现。框架开源,促进AI社区进步,但仍需面对实际应用的挑战与安全性考量。[论文](https://arxiv.org/abs/2403.03186)详述创新细节。

近年来,人工智能(AI)领域取得了长足的进步,尤其是在AI Agent(智能体)的研究和开发方面。AI Agent是指能够感知环境、理解任务,并根据任务要求采取适当行动的智能系统。它们在虚拟环境中的特定任务上表现出色,但要实现在各种虚拟场景中的通用控制,仍然面临着巨大的挑战。

最近,来自昆仑万维等机构的研究人员提出了一种名为Cradle(摇篮)的新型AI Agent框架,旨在解决这一问题。Cradle框架基于大型语言模型(LMM)技术,并结合了六个关键模块,以实现对软件的通用控制。

Cradle框架的创新之处在于,它采用了一种名为General Computer Control(GCC)的设置,该设置要求AI Agent通过最统一和标准化的界面与软件进行交互,即使用屏幕截图作为输入,并使用键盘和鼠标操作作为输出。这种设置的目的是减少环境封装的差异,从而提高AI Agent在不同虚拟场景中的泛化能力。

Cradle框架的六个关键模块包括:

  1. 输入理解:该模块负责理解输入的屏幕截图,并将其转换为可操作的信息。这包括图像识别、目标检测和语义理解等任务。
  2. 规划:该模块负责根据任务要求制定高层次的规划,以指导低层次的操作。这包括路径规划、资源管理等任务。
  3. 代码生成:该模块负责根据规划生成可执行的代码,以实现低层次的键盘和鼠标操作。这包括编写脚本、自动化操作等任务。
  4. 执行:该模块负责执行生成的代码,并与软件进行交互。这包括发送键盘和鼠标事件、处理反馈等任务。
  5. 学习:该模块负责从交互中学习,并改进AI Agent的性能。这包括强化学习、模仿学习等任务。
  6. 评估:该模块负责评估AI Agent的性能,并提供反馈以指导进一步的改进。这包括任务完成度、效率等指标的评估。

通过这些模块的协同工作,Cradle框架能够实现对各种软件的通用控制,包括但不限于商业视频游戏、办公软件和图像编辑软件等。在实验中,Cradle框架在四个以前未探索过的商业视频游戏中表现出色,包括《荒野大镖客2》、《城市:天际线》、《星露谷物语》和《Dealer's Life 2》。此外,Cradle框架还能够操作日常软件,如Chrome、Outlook和飞书,以及编辑图像和视频使用美图秀秀和CapCut。

Cradle框架的提出,为AI Agent的研究和应用开辟了新的方向。首先,它通过GCC设置和六个关键模块的结合,实现了对软件的通用控制,从而大大扩展了AI Agent的应用范围。其次,Cradle框架的灵活性和可扩展性使得它能够适应各种不同的任务和环境,从而提高了AI Agent的适应性和鲁棒性。最后,Cradle框架的开源性和可复用性使得它能够促进整个AI社区的研究和合作,从而加速AI技术的发展和应用。

然而,Cradle框架也存在一些挑战和限制。首先,尽管Cradle框架在实验中表现出色,但在实际应用中可能仍然存在一些问题,如性能下降、错误处理等。其次,Cradle框架的通用性也带来了一些安全和隐私问题,如代码生成的可靠性、数据保护等。最后,Cradle框架的实现和部署也需要大量的计算资源和专业知识,这可能限制了它的广泛应用。

论文地址:https://arxiv.org/abs/2403.03186

目录
相关文章
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
谷歌开源的Agent Development Kit(ADK)是首个代码优先的Python工具包,通过多智能体架构和灵活编排系统,支持开发者在百行代码内构建复杂AI代理,提供预置工具库与动态工作流定义能力。
111 3
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
DeepSeek:重构办公效率的AI新范式
DeepSeek作为新一代AI办公平台,通过语义理解、流程重构和决策支持三大引擎,重新定义办公效率。它以深度语义模型实现合同审核等任务的高效精准,用智能流程挖掘优化业务链条,并融合行业知识图谱辅助决策。数据显示,DeepSeek可大幅压缩时间成本、提升质量并带来显著ROI。其从“人找信息”到“信息找人”的范式转变,推动企业迈向认知联网与群体智能时代,开启办公效率的指数级跃迁。这不仅是工具革新,更是生产力模式的根本转型。
58 0
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
Magnitude是一个基于视觉AI代理的开源端到端测试框架,通过自然语言构建测试用例,结合推理代理和视觉代理实现智能化的Web应用测试,支持本地运行和CI/CD集成。
104 15
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
这个AI能拍无限长电影!SkyReels-V2:昆仑万维开源无限时长电影生成模型!
SkyReels-V2是昆仑万维推出的突破性视频生成模型,基于扩散强迫框架和多模态大语言模型技术,支持生成理论上无限时长的连贯视频内容,在影视制作、广告创意等领域展现强大潜力。
140 7
这个AI能拍无限长电影!SkyReels-V2:昆仑万维开源无限时长电影生成模型!
这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架
SkyReels-A2是昆仑万维推出的创新视频生成框架,通过扩散模型和图像-文本联合嵌入技术,实现多元素精准组合与高质量视频输出。
96 25
只管提需求,AI来帮你修图!ImagePulse:魔搭开源图像处理神器!原子级数据集让AI秒懂修图指令
ImagePulse是魔搭社区推出的开源项目,通过构建原子能力数据集支持下一代图像理解与生成模型,包含修改、缩放、风格迁移等专项数据集。
66 4
只管提需求,AI来帮你修图!ImagePulse:魔搭开源图像处理神器!原子级数据集让AI秒懂修图指令
让AI学会"看屏幕操作"!豆包1.5·UI-TARS:字节跳动推出 GUI Agent 黑科技,办公效率暴增300%
字节跳动推出的豆包1.5·UI-TARS是首个整合视觉理解、逻辑推理与界面操作的GUI Agent模型,无需预定义规则即可完成复杂图形界面交互任务,已在火山方舟平台提供服务。
124 2
让AI学会"看屏幕操作"!豆包1.5·UI-TARS:字节跳动推出 GUI Agent 黑科技,办公效率暴增300%
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
Cua是一个结合高性能虚拟化与AI代理能力的开源框架,能在Apple Silicon上以接近原生性能运行虚拟机,并让AI直接操作系统应用。
152 17
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
模型即产品:万字详解RL驱动的AI Agent模型如何巨震AI行业范式
未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)。像 Manus 这样基于「预先编排好的提示词与工具路径」构成的工作流智能体,短期或许表现不错,但长期必然遇到瓶颈。这种「提示驱动」的方式无法扩展,也无法真正处理那些需要长期规划、多步骤推理的复杂任务。下一代真正的LLM智能体,则是通过「强化学习(RL)与推理(Reasoning)的结合」来实现的。
106 10
模型即产品:万字详解RL驱动的AI Agent模型如何巨震AI行业范式
一个支持阿里云百炼平台DeepSeek R1大模型(智能体)的Wordpress插件,AI Agent or Chatbot.
这是一个将阿里云DeepSeek AI服务集成到WordPress的聊天机器人插件,支持多轮对话、上下文记忆和自定义界面等功能。用户可通过短代码轻松添加到页面,并支持多种配置选项以满足不同需求。项目采用MIT协议授权,代码仓位于GitHub与Gitee。开发者Chi Leung为长期境外工作,代码注释以英文为主。适合需要在WordPress网站中快速部署AI助手的用户使用。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等