争取盟友、洞察人心,最新的Meta智能体是个谈判高手

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 争取盟友、洞察人心,最新的Meta智能体是个谈判高手

AI 学会了「揣度人心」,这本来是世界上最难的事情之一。


长期以来,游戏一直是 AI 进步的试验场——从深蓝战胜国际象棋大师 Garry Kasparov,到 AlphaGo 对围棋的精通程度超越人类,再到 Pluribus 在扑克比赛中击败最厉害的玩家。但真正有用的、全能的智能体不能仅仅只会完棋盘游戏、移动移动棋子。有人不禁会问:我们能否建立一个更有效、更灵活的智能体,使其能够像人类一样使用语言进行谈判、说服并与人合作,以实现战略目标?


在游戏的历史上,存在一款经典的桌面游戏 Diplomacy,很多人在第一次看到该游戏时,都会被它地图式的棋盘吓一跳。以为它是一个复杂的战争游戏。其实不然,这是一款需要调动语言争取盟友的游戏,迁涉到决策与谈判协商,玩者之间有大量的交流,赢得游戏的关键在人与人之间的互动。


现在 Meta 向这一游戏发起了挑战,他们构建的智能体 CICERO,成为首个在 Diplomacy 中达到人类水平的 AI。CICERO 通过在在线版本 webDiplomacy.net 上证明了这一点,其中 CICERO 的平均得分是人类玩家的两倍多,并且在玩过不止一场游戏的参与者中排名前 10%。




几十年来,Diplomacy 一直被视为 AI 领域中不可逾越的巨大挑战,因为这款游戏要求玩家理解他人的动机和观点,需要制定复杂计划,调整策略,并在此基础上使用自然语言与他人达成协议,说服别人结成伙伴关系和联盟等。这些对智能体来说还是比较困难的,而 CICERO 在使用自然语言与 Diplomacy 玩家进行谈判方面还是非常有效的。


与国际象棋和围棋不同的是,Diplomacy 是一款关于人而不是棋子的游戏。如果智能体无法识别对手是在虚张声势,还是真正的发起攻击,它就会很快输掉比赛。同样,如果智能体不能像人一样交流,表现出同理心,与别人建立关系,对游戏侃侃侃谈——它就找不到其他愿意与它合作的玩家。



Meta 的这项研究将战略推理(如 AlphaGo、Pluribus)与自然语言处理( 例如 GPT-3、 BlenderBot 3、LaMDA、OPT-175B)进行了结合。例如,在游戏后期,CICERO 推断出它将需要一个特定玩家的支持,然后 CICERO 会制定一个策略来赢得这个人的青睐。



如何构建 CICERO


CICERO 的核心是一个可控的对话模型和一个战略推理引擎。在游戏的每一点,CICERO 都会查看 game board 及其对话历史,并对其他玩家可能采取的行动进行建模。然后制定计划来控制语言模型,将它的计划告知其他玩家,并为与他们协调良好的其他玩家提出合理的行动建议。

可控对话


为了构建一个可控对话模型,Meta 从一个具有 27 亿参数的类 BART 语言模型开始,并在来自互联网的文本上进行了预训练,还在 webDiplomacy.net 上对 40000 多个人类游戏进行了微调。


实现过程主要分为以下几步:


Step 1:根据 board state 和当前对话,CICERO 对每个人将做出什么给出初步预测。



Step 2:CICERO 迭代地改进初步预测,然后使用改进预测为自己和合作伙伴形成一个意图。



Step 3:根据 board state、对话和意图生成多条候选消息。



Step 4:过滤候选消息,最大化值,并确保彼此之间的意图一致。



研究者利用一些过滤机制进一步提高对话质量,比如用训练过的分类器来区分人类和模型生成的文本以确保——对话是合理的,与当前游戏状态和以前的信息一致,并且在战略上是合理的。


对话意识战略和规划


在涉及合作的游戏中,智能体需要学会模拟人类在现实生活中实际会做什么,而不是将人类看作机器,让智能体指挥他们应该做什么。因此,Meta 希望 CICERO 制定的计划与其他参与者的对话保持一致。



人类建模的经典方法是监督学习,即用标记的数据(如过去游戏中人类玩家的行动数据库)来训练智能体。然而,纯粹依靠监督学习来选择基于过去对话的行动,会导致智能体相对较弱,而且很容易被利用。例如,一个玩家可以告诉智能体「我很高兴我们同意你将把你的部队从巴黎移走!」由于类似的信息只有在达成协议时才会出现在训练数据中,因此智能体可能真的会将其部队调离巴黎,即使这样做是一个明显的战略失误。


为了解决这个问题,CICERO 运行一个迭代规划算法,以平衡对话的一致性和合理性。智能体首先根据它与其他玩家的对话预测每个人在当前回合的策略,同时也预测其他玩家认为智能体的策略将会是什么。然后,它将运行名为「piKL」的规划算法,该算法通过尝试选择在其他玩家预测的策略下具有更高期望值的新策略,来迭代改进这些预测,同时也尝试使新的预测接近于原始策略预测。研究者发现,与单纯的监督学习相比,piKL 能更好地模拟人类游戏,并为智能体带来更好的策略。



生成自然的、目的型的对话


在 Diplomacy 中,玩家如何与他人交谈甚至比他们如何移动棋子更重要。CICERO 在与其他玩家制定战略时,能够清楚地、有说服力地交流。例如,在一个 demo 中,CICERO 要求一个玩家立即在棋盘的某个部分提供支持,同时向另一个玩家施加压力让其在游戏的后期考虑结盟。



交流中,CICERO 试图通过向三个不同的玩家提出行动建议来执行其战略。在第二次对话中,智能体能够告诉其他玩家为什么他们应该合作,以及它将如何对双方有利。在第三次对话中,CICERO 既在征求信息,也在为未来的行动打下基础。


不足之处

必须承认,CICERO 有时也会产生不一致的对话,从而破坏其目标。在下面的例子中,CICERO 扮演的是奥地利,但智能体要求意大利转移到威尼斯,与它的第一个信息相矛盾。



让「Diplomacy」推进人类与 AI 互动的沙盒

在一个既涉及合作又涉及竞争的游戏中,出现了以目标为导向的对话系统,对于使 AI 与人类的意图和目标相一致方面,这提出了重要的社会和技术挑战。「Diplomacy」为研究这个问题提供了一个特别有趣的环境,因为玩这个游戏需要与冲突的目标搏斗,并将这些复杂的目标转化为自然语言。举个简单的例子,玩家可能会选择在短期利益上做出妥协来维持和一个盟友的关系,因为这个盟友有可能在下一回合帮助他们进入一个更好的位置。


虽然 Meta 在这项工作中取得了重大进展,但将语言模型与具体意图有力地结合起来的能力,以及决定这些意图的技术(和规范)挑战仍然是重要的问题。通过开源 CICERO 代码,Meta 希望 AI 研究人员能够以负责任的方式继续在这一工作基础上发展。团队表示:「通过使用对话模型进行零样本分类,我们已经在这个新领域中迈出了检测和删除有害信息的早期步骤。我们希望「Diplomacy」可以作为一个安全的沙盒来推进人与 AI 互动的研究。」


未来方向

虽然目前 CICERO 只能够玩 Diplomacy 游戏,但这一成就背后的技术与许多现实世界的应用有关。例如,通过规划和 RL 控制自然语言的生成,可以缓解人类和 AI 驱动的智能体之间的沟通障碍。


例如,今天的人工智能助手擅长回答简单的问题,比如告诉你天气,但如果他们能保持长期的对话,以教你一个新技能为目标呢?


另外,想象一个视频游戏,其中 NPC 可以像人一样计划和交谈—理解你的动机并相应地调整对话,帮助你完成攻打城堡的任务。


这些「梦想」,未来或许都能走进现实。


原文链接:https://ai.facebook.com/blog/cicero-ai-negotiates-persuades-and-cooperates-with-people/

相关文章
|
2天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
20 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
25天前
|
存储 人工智能 算法
卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge
Meta(原Facebook)提出了一种名为Agent-as-a-Judge的框架,用于评估智能体的性能。该框架包含八个模块,通过构建项目结构图、定位相关文件、读取多格式数据、搜索和检索信息、询问要求满足情况、存储历史判断、以及规划下一步行动,有效提升了评估的准确性和稳定性。实验结果显示,Agent-as-a-Judge在处理复杂任务依赖关系方面优于大型语言模型,但在资源消耗和潜在偏见方面仍面临挑战。
29 1
|
4月前
|
人工智能
Meta开源用于数学等复杂推理AI Agent—HUSKY
【8月更文挑战第19天】Meta AI团队开源了HUSKY,一种统一的AI代理,专长解决数学及复杂推理任务。HUSKY通过学习在通用操作空间内推理,涵盖数值、表格和基于知识的任务。它分为生成和执行两阶段,利用专家模型如语言和数值推理模型解决问题。经过14个数据集测试,HUSKY展现出超越同类代理的性能,尤其是在新提出的HUSKYQA评估集中,其7B模型的表现媲美甚至超越GPT-4等大型模型。相关代码和模型已公开,以推动领域内的研究进展。[论文](https://arxiv.org/abs/2406.06469)
57 2
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
80 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
5天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
66 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
6天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
58 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
14天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
59 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
1月前
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
115 13
AI经营|多Agent择优生成商品标题
|
13天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
29 7
|
21天前
|
人工智能 自然语言处理 搜索推荐
🤖【多Agent大爆炸】——灵活调用与实践指南,解锁AI协作新技能!
本文深入探讨了单Agent与多Agent在不同场景下的应用及优势,通过实例讲解多Agent如何实现高效协作,涵盖智能物流、教育、医疗等多个领域的实际应用,旨在帮助开发者掌握多Agent系统的调用与实践技巧。
87 5