淘天算法工程师玩转《黑神话》,多模态大模型如何成为天命AI

简介: 淘天集团未来生活实验室的算法工程师们以ARPG游戏《黑神话:悟空》为平台,探索多模态大模型(VLM)在仅需纯视觉输入和复杂动作输出场景中的能力边界。他们提出了一种名为VARP的新框架,该框架由动作规划系统和人类引导的轨迹系统组成,成功在90%的简单和中等难度战斗场景中取得胜利。研究展示了VLMs在传统上由强化学习主导的任务中的潜力,并提供了宝贵的人类操作数据集,为未来研究奠定了基础。


最近,基于大型语言模型 (LLM) 的Agent在各个领域取得了重大进展。最受欢迎的研究领域之一是将这些Agent应用于电子游戏上。

传统的方法往往依赖于游戏的API来通过内存访问游戏内环境和动作数据。然而,这种方法受到API可用性的限制,并且不能反映人类玩游戏的方式。

此外,在动作角色扮演游戏 (ARPG) 中,基于强化学习 (RL) 的方法很普遍,但其泛化能力较差,需要大量训练。

为了解决这些限制,淘天集团未来生活实验室的算法工程师们选择了一款ARPG游戏「黑神话:悟空」作为研究平台,以探索现有多模态大模型(VLM)在仅需要纯视觉输入和复杂动作输出的场景中的能力边界。


技术团队提出了一种新颖的VARP代理框架,其由动作规划系统和人类指导的轨迹系统组成,并且展示了VARP框架在90%的简单和中等难度级别的战斗场景中取得成功的能力。

image.png

论文投稿中,arxiv版本抢先看:Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case

image.png

image.png

image.png

image.png

image.png

背景介绍:基于VLM的Agent框架

想要实现让多模态大模型(VLM)控制游戏角色,现有研究主要存在的两个挑战:


一是直接视觉输入,由于环境数据不一定能通过游戏API获取,因此学习从视觉输入中进行推理成为一种更直接的策略,特别是在那些需要深入理解游戏界面的3A游戏中。


二是面向动作的任务,在动作游戏或魂系游戏中,基于强化学习的框架仍然占据主导地位,但它们在特定任务上需要大量的训练时间,在迁移到其他任务上时拥有较差的泛化能力。


此外,虽然目前已经有一些使用多模态大模型控制游戏的工作,如Cradle可以直接使用游戏截图作为输入,但Cradle很依赖游戏画面中的文本提示,在弱文本指导的动作游戏中表现不佳。


因此在这次研究中,技术团队首次在3A级动作角色扮演游戏《黑神话:悟空》上进行广泛实验,以致力于构建一个基于VLM的Agent框架,彻底探究现有模型(例如 GPT-4o、Gemini)在纯视觉输入、复杂动作输出场景下的能力边界。其中,纯视觉输入是指模型仅通过理解和分析游戏截图进行决策,而复杂动作输出则需要模型执行复杂而连续的动作,例如战斗场景中的精确操作。


技术团队提出的方案VARP下图所示,其包括动作规划系统和人类引导系统。

image.png


VARP Agent:两个系统、维护三个库

技术团队提出了一个名为VARP Agent的新框架,它直接以游戏截图为输入。


通过一组多模态大模型(VLMs)的推理,最终生成可以直接操作游戏角色的Python代码。每个动作都是由各种原子命令组合而成的序列。


这些原子命令包括轻攻击、躲避、重攻击、恢复血量等。同时,VARP Agent维护三个库:情境库、动作库和人类引导库。这些库可以被检索和更新,以存储用于自我学习和人类指导的密集知识。


总体而言,VARP代理分为两个系统:动作规划系统和人类引导的轨迹系统,如上图所示。在动作库中,“def new_func_a()”表示由动作规划系统生成的新动作,而“def new_func_h()”表示由人类引导的轨迹系统生成的新动作。“def pre_func()”表示预定义的动作。


动作规划系统

动作规划系统主要用于动作推理和生成。该系统使用可更新的情境库和动作库作为知识检索基础。受到Cradle工作的启发,在输入游戏截图的引导下,系统使用一组VLMs选择或生成适合当前情境的动作。生成的情境和动作被存储或更新在这两个库中。


此外,技术团队提出了可分解的特定任务辅助模块,以将大型任务分解为更小的子任务,然后由多个VLMs分布式处理,以减少模型遗忘和幻觉的发生。


技术团队还引入了一个自我优化动作生成模块,以鼓励VLMs针对某些困难任务生成新的动作,从而更有效、更高质量地完成复杂任务。


动作生成模块。技术团队希望模型能在实时战斗中学习新动作。因此,技术团队引入了一个负责新动作函数生成的组件,它分析当前任务下敌人的特征,如名称、外观、武器等。最重要的是,它需要分析敌人当前和之前的动作。例如,牯护院的攻击动作大致可以分为:“用斧头向前冲”和“连续向下砍三次斧头”等。因此,该组件需要基于当前敌人的动作推断新的躲避和反击动作。例如,对于“用斧头向前冲”,新动作应该是先躲避一次,然后连续攻击;对于“连续向下砍三次斧头”,新动作应该是在躲避三次后再反击。生成的新动作是“躲避”和“轻攻击”原子操作的排列组合。


任务分解模块。在动作游戏中,尤其是在《黑神话:悟空》游戏中,VLM的推理涉及大量的token,包括多个图像和长文本。但由于每个模块的输入token过多,模型可能无法有效关注关键信息,导致遗忘和幻觉等错误。因此,技术团队将原来处理多个任务的决策制定模块分解为多个子模块,包括如敌人子模块用于分析敌人的状态(如其血量、位置等)和动作描述;战斗子模块通过观察游戏屏幕右下角的重攻击状态来决定使用哪种战斗方式,包括轻攻击或重攻击;血量子模块负责不断监控玩家的血条等等。


人类引导系统

人类动作被视为有价值的数据,隐含着丰富的物理和游戏世界知识,这可以引导非常复杂任务的高级动作组合,例如寻路任务和高难度战斗任务。技术团队将标注得到的数据集称为人类引导库。它是由游戏截图和人类操作组成的对集合,每对都有唯一的时间戳。


对于游戏中非常困难的任务,技术团队首先截取当前游戏界面的截图。基于这个游戏截图,技术团队在人类引导库中查询最相似的截图。然后将这个截图以及随后的n帧截图及其相应的操作输入到人类引导系统中。该系统将使用VLM分析和总结输入的图像和操作,最终输出一个新的人类引导动作,然后存储在动作库中供动作规划系统选择和执行。


VARP Agent表现已接近新手人类玩家

75%的任务发生在战斗场景

技术团队定义了10个基本任务和2个挑战任务,其中75%的任务发生在战斗场景中,如图所示。对于战斗任务,如果玩家角色击败了敌人,则认为任务成功;如果玩家角色被敌人击败并杀死,则认为任务失败。


技术团队还评估了12个任务的难度,并将它们分类为简单、中等、困难和非常困难。由于《黑神话:悟空》游戏中缺乏地图和指引,并且存在许多“空气墙”,技术团队将任务12:自主寻路(需要在五分钟内从出发点移动到牯护院的位置)归类为非常困难的任务,因为该任务即使是对人类新手来说也很难。

image.png

VARP Agent在部分战斗上超人类

image.png


技术团队提出的VARP和人类新手玩家在任务1到8上的成功率都很高,大多数任务的成功率接近100%。


在任务9中,VARP Agent的平均成功率为40%,这也证实了它的“中等”难度。


任务10中的敌人是玩家在游戏中遇到的第一个boss级怪物。对于人类新手玩家,这项任务的成功率为15.63%,而VARP Agent的平均成功率为20%。


任务11被归类为“非常困难”,因此人类新手和VARP Agent的成功率都很低。具体来说,VARP Agent受到VLMs推理速度的限制,无法实时输入每一帧游戏画面,只能以秒级的时间间隔输入关键帧。在ARPG中,这很容易导致错过敌人攻击的关键信息。因此,任务11对代理来说特别具有挑战性。


任务12,即自主寻路方面,人类可以轻易地在五分钟内找到关卡的最终boss敌人,但对于VLMs来说,这是一个几乎不可能完成的任务。如果没有人类引导,该任务成功率为0%。由于游戏没有为导航任务提供指引或提示,并且包含许多“空气墙”,VLMs缺乏在没有人类帮助的情况下感知3D场景中正确路径的能力。在加入人类引导模型后,寻路成功率可以提升到40%。


总之,VARP Agent在任务1到11的表现已经接近新手人类玩家。然而,在3D场景感知和先验知识方面,VARP Agent仍然远远不如人类。

具体战斗示例分析

image.png

如图所示,第一行和第二行中的动作是预定义函数。我们的VARP会根据输入的视觉信息自动检测是否使用这些动作。例如,如果可以使用「定身」技能,代理将执行:

``fight_immobilization_spell_skill'' 动作。同样,如果玩家的血量状况较差,它将使用 ``recover_health'' 动作。


第三行中的动作由人为引导的轨迹系统生成。人类的先验知识可以有效地指导代理提高导航任务的效率。


第四行和第五行中的新动作是SOAG模块。在玩家角色与敌人的每次战斗互动后总结并存储在动作库中。这些动作特定于特定的敌人及其攻击模式。例如,在第四行中,当Agent观察到名为 Bullguard 的敌人举起武器时,这表明敌人即将执行“连续三次向下砍斧头”的动作。然后,Agent可以在动作库中找到特定的反击动作。


“fight_new_action_bullguard_raise_weapon”动作在战斗开始时被定义为连续躲避四次,然后攻击五次。随着战斗的进行,此动作被优化为在躲避之间的间隙进行反击,从而大大提高了击败敌人的成功率和效率,如第四行所示。这表明SOAG模块可以不断优化其生成的动作。


在本研究中,算法工程师们探讨了当前多模态大模型(VLMs)在复杂动作角色扮演游戏(ARPGs)中的决策能力,以《黑神话:悟空》作为实验平台。算法工程师们提出的框架VARP,通过利用仅视觉输入进行ARPG环境中的动作规划,引入了一种新颖的游戏互动方法。VARP框架在简单和中等难度的战斗场景中取得了90%的成功率,表明VLMs可以有效应用于传统上由强化学习主导的任务中。算法工程师们提出的基准可以有效评估视觉Agent在《黑神话:悟空》游戏中的表现。此外,算法工程师们提供的人类操作数据集为未来研究提供了宝贵资源,使得在视觉复杂环境中研究类人游戏玩法和动作决策成为可能。研究结果强调了多模态Agent在增强动作导向任务中的泛化能力和性能的潜力。展望未来,从这项研究中获得的见解可以为设计能够应对更广泛挑战的更复杂Agent铺平道路,无论是在ARPGs中还是更广泛的领域。


说明与局限性

感谢您的阅读,由于《黑神话:悟空》游戏的极高人气,希望澄清一些可能争议点和误解。首先,工作仅限于科学研究,而非商业用途。同时,框架具有广泛的适用性,未来将进一步推广到更多类似的动作游戏和其他场景,而不仅限于《黑神话:悟空》游戏。本文探讨了使用多模态大模型在游戏任务中执行动作组合的潜力,特别关注它如何利用动作规划和视觉轨迹模块的优势,在与中等和困难实力的敌人战斗中取得胜利。此外,我们提供了一个人类操作数据集,为多模态检索增强生成、模仿学习和强化学习等技术提供了可能性,未来计划招募更多志愿者以收集更高质量的数据,也欢迎您联系我们,贡献您的想法、甚至游戏数据。





来源  |  阿里云开发者公众号

作者  |  朝钧、不皮、啊俊

目录
打赏
0
4
6
1
2715
分享
相关文章
大模型+运维:让AI帮你干脏活、累活、重复活!
大模型+运维:让AI帮你干脏活、累活、重复活!
72 19
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。
106 36
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
1516 3
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
本文分享了两种构建高质量AI代码数据集的解决方案。第一种是传统方式,结合动态住宅代理与手动处理,通过分页读取和数据清洗生成结构化数据;第二种是利用Web Scraper API工具,实现自定义配置、自动化抓取及云端存储。两种方法各具优势,适合不同需求和技术水平的团队。同时,文章还提供了专属优惠福利,助力提升数据采集效率,为AI大模型训练提供支持。
49 5
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with AI Extension组件,在Kubernetes环境中为大语言模型(LLM)推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
如何在云效中使用 DeepSeek 等大模型实现 AI 智能评审
除了代码智能补全外,AI 代码智能评审是 DevOps 领域受开发者广泛关注的另一场景了。本文,我们将结合云效代码管理 Codeup、流水线 Flow 和 DeepSeek,分享一种企业可快速自主接入,即可实现的 AI 智能评审解决方案,希望给大家一些启发。
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
Python下的毫秒级延迟RTSP|RTMP播放器技术探究和AI视觉算法对接
本文深入解析了基于Python实现的RTSP/RTMP播放器,探讨其代码结构、实现原理及优化策略。播放器通过大牛直播SDK提供的接口,支持低延迟播放,适用于实时监控、视频会议和智能分析等场景。文章详细介绍了播放控制、硬件解码、录像与截图功能,并分析了回调机制和UI设计。此外,还讨论了性能优化方法(如硬件加速、异步处理)和功能扩展(如音量调节、多格式支持)。针对AI视觉算法对接,文章提供了YUV/RGB数据处理示例,便于开发者在Python环境下进行算法集成。最终,播放器凭借低延迟、高兼容性和灵活扩展性,为实时交互场景提供了高效解决方案。
代理IP:撕开AI大模型"可靠性"的华丽外衣
在AI大模型发展热潮中,代理IP的使用正悄然引发数据源头到模型评估的信任危机。从数据采集中的“幽灵请求”到模型测试中的“虚假繁荣”,再到可靠性崩塌的连锁反应,代理IP带来的污染问题日益凸显。文章深入剖析了行为模式失真、内容生成偏差、对抗样本陷阱等问题,并提出通过建立“数字指纹”鉴伪系统、开发环境感知型模型架构和构建动态评估基准来破解困局。唯有清除代理IP的隐忧,回归真实数据,才能夯实AI发展的基石,推动人机共生的可持续进化。
22 1
9.9K star!大模型原生即时通信机器人平台,这个开源项目让AI对话更智能!
"😎高稳定、🧩支持插件、🦄多模态 - 大模型原生即时通信机器人平台"

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等