QWEN-VL 也能打星际!!!

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 基于Camel agent框架和 QWEN-VL实现的星际争霸2 多模态 决策环境, 提出了基于vlm的self-attention 算法

VLM-Attention: 打造人类视角的星际争霸II智能体环境

突破SMAC的局限性

传统的SMAC环境虽然为多智能体强化学习提供了标准化的接口,但其设计与人类玩家的游戏体验有较大差异。SMAC环境使用预定义的离散动作空间(如NOOP、STOP、四个方向移动和攻击),观测空间也主要基于数值特征(如相对距离、血量比例等),这种设计虽然便于训练,但难以模拟人类玩家的决策过程。

VLM-Attention的系统设计

VLM-Attention通过重新设计观测空间和动作空间,构建了一个更贴近人类认知的交互环境。我们的观测空间包含三个核心组件:
image-7.png

观测空间与动作空间

文本观测(Text Observation)

提供游戏状态的自然语言描述
包含所有单位的生命值、护盾值等状态信息
按阵营(己方/敌方)组织信息架构

图像观测(Image Observation)

提供RGB格式的游戏画面,支可持单位标注和状态可视化.同时尺寸可配置,支持高分辨率的图像.

单位详细信息(Unit Information)

原始单位标识符(original_tag)和简化标识符(simplified_tag)

单位基础属性:阵营、类型、名称、位置等

状态值和技能信息:生命值、护盾值、能量值、可用技能列表、技能类型等

动作空间

设计包括三类核心动作:

攻击动作(Attack Actions)

使用标签对标识攻击者和目标,支持验证攻击合法性以实现精确的单位选择和目标指定.

移动动作(Move Actions)

支持两种移动模式:

  1. 网格移动:10x10网格系统,支持精确坐标定位,如move_to(unit_A_label,5,5)
  2. SMAC风格移动:四个基本方向(上下左右),与smac的移动方式一致.

技能动作(Ability Actions)

支持多种技能类型:

  1. 瞬发技能(quick)
  2. 点目标技能(point)
  3. 单位目标技能(unit)
  4. 自动施放技能(autocast)

完整的技能系统:

  1. 装载,卸载等等
  2. 兴奋剂,坦克支架,维京战机变形等等
  3. 其他特殊技能

image-5.png

single-player setting

first_annotation_0022.png

player1视角

image-6.png

player2视角

2-players setting

核心优势

VLM-Attention环境的设计具有以下优势:

认知对齐

  1. 观测方式与人类玩家视角一致.AlphaStar 的观测空间包含了Game core的大量信息,比如deepmind使用到的17层feature map(高度,unit tag等等);而 SMAC的观测空间则包含了游戏内的物理量信息,同时没有视觉输入. 所以当前的星际争霸2 AI在观测上并不能做到和人类对齐.而我们的观测空间为RGB游戏图像与文本信息,基本做到了与人类一致的观测空间,从而实现了认知对齐.

image.png

AlphaStar framework

image-2.png

SMAC observation space

  1. 支持基于视觉和语言的决策过程,实现更自然的决策. 环境支持每个step接收对应的文本和RGB图像信息,同时提供了对应的标签函数,为对应的单位标明指定的序号.

image-3.png

原始3m 环境图像

image-4.png

自动化标注的3m 环境图像, 不同单位的simple_tag是不同的,我们通过跟踪unit_tag(即星际争霸2 游戏引擎为每个单位提供的tag),进行转换,保证每个单位在同一局游戏内的tag恒定不变.

丰富的地图设计

我们的环境支持 single player(类似于SMAC), 2 players(即支持self-play), ability usage 1/2 player(SMAC 本身并不支持 ability,我们的新环境支持ability-使用技能).

与此同时,我们设计了更加符合星际争霸2 真实游戏情况的微观操作对抗地图以及对SMAC地图进行了改进.新地图将有效测试 Agent的推理和决策能力

VLM-Agent设计

我们探索了VLM-SELF-ATTENTION, RAG对agent的影响

VLM-SELF-ATTENTION

在VLM-SELF-Attention中,我们引入了基于视觉语言模型的自注意力机制,使智能体能够像人类玩家一样感知和理解战场。当环境向智能体提供游戏画面时,系统首先对所有单位进行完整标注,生成第一轮图像注释。随后,视觉语言模型会分析场上形势,识别具有高战略价值的敌方单位,并生成包含这些重要单位的第二轮重点标注。这种双重标注机制让智能体能够在复杂的战场环境中快速锁定关键目标,模拟了人类玩家在对战中的注意力分配过程。

RAG

为了提升决策的专业性,我们设计了基于检索增强生成(RAG)的知识系统。该系统维护了一个专业的星际争霸II单位数据库,能够针对场上单位实时检索相关信息。在每个决策周期中,系统会检索当前战场上所有相关单位的专业数据,包括单位特性、战术价值和常用策略等信息。这些知识会被整合成一份简洁的单位信息摘要,帮助智能体制定更有针对性的战术决策。系统还会记录最近几个决策步骤的历史信息,使智能体能够根据战局发展调整策略。

VLM驱动的多智能体任务分配

image-8.png

在多智能体环境中,任务分配是一个至关重要且富有挑战性的问题,尤其是在复杂的动态场景中。人类社会通常通过分工协作来有效地解决这一问题,而在虚拟环境中,如星际争霸II,任务分配不仅要考虑单位的类型和特性,还需要实时应对战场上的不断变化。因此,设计一个能够灵活适应各种情境的任务分配系统是提升智能体协作效率的关键。在星际争霸II等实时战略游戏中,任务分配涉及多个智能体协同工作,需要考虑到战场形势、资源分配、单位特性以及敌方的策略等因素。一个高效的任务分配机制能够确保每个智能体在特定时刻执行最优任务,从而提高整体作战效率,减少资源浪费,并增强在动态复杂环境中的适应能力。例如,在一场战斗中,某些单位可能需要专注于进攻,而其他单位则应负责防守或资源采集。任务分配的不当可能导致战斗中的协调失败,进而影响整个团队的表现。

在人类社会中,这一问题通常通过分工协作来解决。为了解决这一问题,我们提出了一个基于视觉语言模型(VLM)的任务分配系统。该系统通过融合来自游戏画面和文本信息的多模态数据,识别战场上的关键单位,综合其类型、状态以及周围环境信息,为每个单位分配最适合的任务。这种多模态输入不仅能增强系统对环境的感知能力,还能提高智能体在复杂环境中的任务分配和协作效果。

具体而言,我们设计了一个角色分配(role assignment)模块,主要由对比学习(contrastive learning)以及反思机制(reflection)构成。首先,在游戏开始或战场变化时,系统首先基于战场情势和单位特性生成一个初步的任务分配方案。这一方案考虑了单位的功能需求、战术需求以及敌方活动等因素。例如,对于具有较强攻击力的单位,系统可能将其分配为攻击任务;对于防御能力较强的单位,则分配为防守任务。随后,对比学习被用于优化任务的分配,使得系统能够根据任务的相似性调整分配策略。具体来说,系统会通过对比学习算法,将相似类型的任务映射到相近的空间,而不同类型的任务则被拉远。例如,任务“集火”与“反打”可能有较高的相似性,而“放风筝”则与“控场”类型的任务差异较大。通过对比学习,任务之间的关系被有效编码,为后续的任务调整提供了理论支持。最后,在任务分配过程中,反思机制能够根据对比学习的反馈调整初始任务分配方案。例如,如果系统发现某些单位在执行任务时效率低下,它会通过反思机制重新评估任务分配的合理性,并进行调整。这种动态调整不仅能够提升任务分配的准确性,还能应对战场中不断变化的复杂情况。

在角色表示层面,我们摒弃了传统的one-hot编码方式,采用了更为灵活的encoder-decoder结构,将每个角色的任务信息编码成一个连续的向量。与传统的one-hot编码相比,连续向量能够更有效地捕捉角色之间的相似性和差异性。例如,两个类型相似的单位(如两个战斗单位)在编码空间中的距离会更近,而任务需求差异较大的单位(如采集单位与战斗单位)则会被编码为距离较远的向量。这种编码方式不仅提高了对比学习和反思机制的效果,还能进一步优化任务分配和智能体之间的协作。

pipeline

VLM-Attention的完整决策流程展现了智能体如何将视觉理解、知识检索和战术规划有机结合。当接收到新的观测时,智能体首先进行场景理解,处理游戏画面并提取单位信息。随后通过自注意力机制识别关键目标,并从知识库中检索相关信息。然后通过角色分配模块为每个智能体划分合理的分工。基于这些输入,智能体会生成初步的决策方案,经过规范化处理和合法性验证后执行。这种设计使VLM-Attention能够像人类玩家一样,通过观察、分析和决策进行游戏,体现了AI在复杂战略环境中的认知能力。

我们希望本工作不仅为VLM/RL提供了理想的测试平台,也研究者提供了一个更接近真实游戏体验的研究环境。

demo链接:Qwen-vl模型也能打星际!_哔哩哔哩_bilibili

关于Camel社区

Camel社区是一个致力于推动人工智能(AI)技术创新的开源社区,专注于 Agent领域的研究与应用。作为Camel社区的一员,我们始终秉持开放、协作和创新的理念,积极参与社区项目,推动AI技术的透明性和可访问性。

Camel社区的核心使命是通过开源项目和跨学科合作,促进AI技术的前沿发展。社区汇聚了全球的研究者、开发者和爱好者,共同探索AI在复杂环境中的应用,如游戏智能体、机器人协作和战略决策等。我们的工作VLM-Attention正是基于Camel社区的开源精神和技术积累,致力于打造更贴近人类认知的星际争霸II智能体环境。

我们感谢Camel社区提供的支持与资源,并期待与更多社区成员合作,共同推动AI技术的进步。如果您对VLM-Attention或Camel社区感兴趣,欢迎访问Camel社区官网了解更多信息,或加入我们的开源项目。

相关文章
|
11月前
|
人工智能
基于qwen2和qwenvl的自动批改作业应用!
针对作业批改中常见的问题,如低质量作业、大量简单作业耗时、需初筛异常作业等,开发了一款自动批改作业的应用。该应用通过备份作业文件、获取文档内容、利用AI生成评语,并保存关键信息与日志,简化了教师的工作流程,提高了效率。应用设计简洁,易于扩展,支持图片转文字处理,适合教育场景使用。
2654 1
基于qwen2和qwenvl的自动批改作业应用!
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问Qwen征文活动获奖公布
Qwen征文获奖公布啦!
738 3
|
10月前
|
人工智能 Java API
教你自创工作流,赋予AI助理个性化推荐超能力
本文详细介绍了使用Spring AI Alibaba构建AI助理的全过程,涵盖从基本流程设计到实际操作实现的各个方面。文章首先回顾了前期工作,包括旅游攻略、天气查询和个人待办事项等功能模块的设计与实现。接着,深入探讨了工作流的实现细节,如事件封装优化、工作流节点创建及复杂工作流的高效管理。最后,通过实际项目启动与运行测试,展示了AI助理的实际效果,验证了系统的稳定性和可扩展性。本文不仅适合Java开发者学习AI技术,也为后续的优化和功能拓展提供了宝贵的经验。
1218 8
教你自创工作流,赋予AI助理个性化推荐超能力
|
10月前
|
存储 自然语言处理 机器人
基于的Qwen模型的智能客服Discord机器人,使用🐫 CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent
基于Qwen模型的智能客服Discord机器人,使用CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent。构建了一个能够处理复杂问题并能进行快速响应的强大聊天机器人。该机器人可在Discord平台上运行,支持实时对话和语义搜索,提供准确、全面的回答。项目包含详细的安装步骤、代码示例及集成指南,适合开发者快速上手。
|
10月前
|
自然语言处理 NoSQL API
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 基于指令的智能工具调用决策 智能体
基于百炼平台的 `qwen-max` API,设计了一套融合检索增强、图谱增强及指令驱动的智能工具调用决策系统。该系统通过解析用户指令,智能选择调用检索、图谱推理或模型生成等工具,以提高问题回答的准确性和丰富性。系统设计包括指令解析、工具调用决策、检索增强、图谱增强等模块,旨在通过多种技术手段综合提升智能体的能力。
683 5
|
10月前
|
人工智能 自然语言处理 算法
基于Qwen的法律领域问答方案(Agent+代码生成)
第三届琶洲算法大赛由广州市政府与中国人工智能学会联合主办,聚焦AI大模型和AIGC热点,吸引超5000支队伍参赛。本文提出基于Qwen的Agent+代码生成方案,通过问题重写、命名实体识别、意图识别等步骤,实现法律问题解答、案件信息查询等功能,支持自定义接口以满足不同查询需求。方案利用大语言模型的语义理解和函数调用功能,确保答案可控生成,并已发布于Qwen-Article仓库。
|
10月前
|
JSON 人工智能 自然语言处理
小模型也能有类o1的慢思考能力?使用CAMEL生成CoT数据、Unsloth微调Qwen2.5-1.5B模型并上传至Hugging Face
本项目利用CAMEL生成高质量的CoT数据,结合Unsloth对Qwen2.5-1.5B模型进行微调,并将结果上传至Hugging Face。通过详细步骤介绍从数据生成到模型微调的完整流程,涵盖环境配置、API密钥设置、ChatAgent配置、问答数据生成与验证、数据转换保存、模型微调及推理保存等内容。最终展示了如何优化问答系统并分享实用技巧。 [CAMEL-AI](https://github.com/camel-ai/camel) 是一个开源社区,致力于智能体扩展研究。欢迎在GitHub上关注并加入我们!
1148 15
|
10月前
|
机器学习/深度学习 数据采集 人工智能
基于Qwen 2.5的世界科学智能大赛冠军方案
本方案基于通义千问模型,采用多阶段的Easy-to-Hard数据合成方法,模拟人类学习的由简单到困难的思路,逐阶段构造多样化的训练数据。数据生成阶段,训练数据的标签,引入了“Chain-of-Thought”思维链模式,生成多样化的推理路径,逐步对齐推理Scaling Law。训练阶段,采用了LoRA对通义千问32B模型在合成数据集上进行参数高效微调。推理阶段,使用了4bit低精度量化,并结合vLLM框架进行推理加速,最终达到准确性、效率和显存利用率的统一。
619 2
基于Qwen 2.5的世界科学智能大赛冠军方案
|
10月前
|
决策智能 数据库 开发者
使用Qwen2.5+SpringBoot+SpringAI+SpringWebFlux的基于意图识别的多智能体架构方案
本项目旨在解决智能体的“超级入口”问题,通过开发基于意图识别的多智能体框架,实现用户通过单一交互入口使用所有智能体。项目依托阿里开源的Qwen2.5大模型,利用其强大的FunctionCall能力,精准识别用户意图并调用相应智能体。 核心功能包括: - 意图识别:基于Qwen2.5的大模型方法调用能力,准确识别用户意图。 - 业务调用中心:解耦框架与业务逻辑,集中处理业务方法调用,提升系统灵活性。 - 会话管理:支持连续对话,保存用户会话历史,确保上下文连贯性。 - 流式返回:支持打字机效果的流式返回,增强用户体验。 感谢Qwen2.5系列大模型的支持,使项目得以顺利实施。
2961 8
使用Qwen2.5+SpringBoot+SpringAI+SpringWebFlux的基于意图识别的多智能体架构方案
|
10月前
|
人工智能 文字识别 并行计算
行业实践 | 基于Qwen2-VL实现医疗表单结构化输出
本项目针对不同医院检查报告单样式差异大、手机拍摄质量差等问题,传统OCR识别效果不佳的情况,探索并选定了Qwen2-vl系列视觉语言模型。通过微调和优化,模型在识别准确率上显著提升,能够精准识别并结构化输出报告单信息,支持整张报告单及特定项目的识别。系统采用FastAPI封装接口,Gradio构建展示界面,具备高效、灵活的应用特性。未来该方案可扩展至多种文本识别场景,助力行业数字化转型。
786 20