在人工智能领域,通用计算机控制(GCC)一直是一个令人向往的目标。智源研究院(BAAI)联合新加坡南洋理工大学和北京大学计算机科学学院的研究团队,提出了一个名为Cradle的智能体框架,这一框架的诞生标志着我们在实现GCC的道路上迈出了重要的一步。
Cradle框架的设计理念是模拟人类与计算机的交互方式,即通过屏幕图像和可能的音频输入,以及键盘和鼠标操作输出,来掌握任何计算机任务。这种设计不仅能够处理多样化的观察和动作空间,还能够跨越语义间隙,不依赖于特定任务的资源,从而实现跨场景的泛化能力。
Cradle框架由六个主要模块组成:信息收集、自我反思、任务推断、技能策划、动作规划和记忆。这些模块相互协作,使得智能体能够在复杂的环境中做出有效的决策和行动。信息收集模块负责处理多模态输入,包括屏幕图像和音频信息;自我反思模块则让智能体能够回顾过去的经验,以改进未来的决策;任务推断模块负责选择最佳的下一个任务;技能策划模块用于生成和更新特定任务的相关技能;动作规划模块决定键盘和鼠标控制的具体动作;而记忆模块则负责存储和检索过去的经验和已知技能。
为了验证Cradle框架的泛化和适应能力,研究团队将其应用于《荒野大镖客救赎2》(RDR2)这款复杂的AAA级游戏。RDR2以其电影般的真实场景、丰富的故事情节和沉浸式的开放世界而闻名,其复杂的黑盒控制系统代表了最具挑战性的计算机任务。在这款游戏中,Cradle需要捕获和解释各种类型的信息,并执行比典型软件更广泛的键盘和鼠标交互操作。
Cradle框架的实现细节体现了其对复杂任务的处理能力。它使用GPT-4V作为核心模型,这是一种大型多模态模型,能够处理复杂的语言和视觉任务。为了降低与核心模型的交互频率,视频记录器每0.5秒捕获一次游戏截图。此外,为了解决GPT-4V在空间理解和精细操作技能方面的不足,研究团队在信息收集模块中添加了视觉增强子模块,利用Grounding DINO输出可能目标的精确边界框,并执行模板匹配,为GPT-4V提供图标识别的地面真实性。
在自我反思模块中,智能体评估先前执行的动作是否成功,并决定当前执行的任务是否完成。任务推断模块在游戏过程中,当GPT-4V认为需要开始新任务时,会提出当前任务。技能策划模块则将游戏中出现的指令转化为可执行的鼠标和键盘动作。动作规划模块从程序记忆中检索与任务最相关的技能,并提供当前任务、检索到的技能集以及可能有助于决策的其他信息。GPT-4V根据这些信息建议应执行哪些技能,并提供选择这些技能的原因。动作执行模块则将键盘和鼠标动作分类为四个主要类别:按键、持续按键、释放键和指针移动。
Cradle框架在RDR2中的部署展示了其在学习和执行新技能、跟随游戏主线以及完成真实任务方面的强性能。这是第一个从零开始在AAA级游戏中完成具体任务的基于大型多模态模型(LMM)的智能体。尽管Cradle在特定任务中仍可能面临困难,但它为开发更强大的基于LMM的通用智能体奠定了基础。
未来的工作计划将扩展Cradle框架,以支持更广泛的游戏类型,如模拟和策略游戏,以及各种软件应用。此外,将音频作为输入的整合也是关键,这将引入处理同时多模态输入的额外挑战。一旦能够与任何软件无缝交互,Cradle将成为一个评估基础智能体多方面能力的互动基准。通过框架开发和执行收集的交互数据将对未来的努力至关重要,从训练更好的模型到增强世界建模,从而提高智能体的能力和对广泛用户的有用性。
Cradle框架的代码库已经开源,这为研究社区提供了一个宝贵的资源,以便进一步研究和开发。