浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显

简介: 【2月更文挑战第22天】浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显

59b000df9ec046e174d9c207c986c6af.jpeg
在人工智能领域,自我进化的智能体一直是研究者们梦寐以求的目标。最近,浙江大学与中国科学院的联合研究团队取得了突破性进展,他们共同研发了一种新型的大型语言模型基础智能体——Agent-Pro。这一智能体不仅能够在游戏中学习并提升其行为策略,更在德州扑克这一复杂的心理游戏中展现出了令人瞩目的心机和策略。

Agent-Pro的核心特点在于其策略级反思和优化能力。与传统的基于行动级反思的智能体不同,Agent-Pro能够迭代反思过去的轨迹和信念,对不合理的信念进行微调,从而优化其行为策略。这种能力使得Agent-Pro在面对复杂动态场景时,能够更加灵活和高效地做出决策。

Agent-Pro的设计灵感来源于心智理论,它赋予智能体自我认知和对外部世界的认知。在观察到部分信息后,Agent-Pro会更新其自我信念和世界信念,并基于这些信念做出决策。这种设计使得智能体在面对不完全信息的任务时,能够更好地适应和学习。

在Blackjack和Texas Hold’em两款游戏的评估中,Agent-Pro的表现超越了传统的大型语言模型和专门模型。特别是在德州扑克中,Agent-Pro不仅学会了如何根据对手的风格和游戏规则调整策略,还掌握了虚张声势等心理战术,显示出了与人类玩家相似的战略思维。

Agent-Pro的成功不仅在于其在游戏评估中的优异表现,更在于其展现出的学习和进化能力。它通过构建动态信念,在不确定场景中进行决策,并通过反思交互经验,纠正不合理的信念,将其总结为行为指南和世界描述的新策略。这种自我进化的能力,为未来人工智能的发展提供了新的可能性。

然而,Agent-Pro仍有其局限性。首先,它的学习过程高度依赖于基础模型的能力,尤其是其推理和反思能力。这意味着,如果基础模型的这些能力受限,Agent-Pro的表现也会受到影响。其次,尽管Agent-Pro在游戏评估中取得了显著的进步,但与游戏场景中最先进的算法相比,仍可能存在一定的差距。未来的研究需要继续探索如何进一步提升Agent-Pro的性能,并建立一套基准测试来全面评估其行为。

论文地址:https://arxiv.org/abs/2402.17574

目录
相关文章
|
机器学习/深度学习 人工智能 算法
人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!
最近,Facebook的研究人员开发了一个玩德州扑克的人工智能,可以轻松击败人类玩家,它跟DeepMind的AlphaZero有何不同?今天我们就来看下。
360 0
人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!
|
机器学习/深度学习 人工智能 算法
1:2,李世石最后一战被AI击败,唯一战胜过AlphaGo的人退役了
退役赛的最后一局,李世石回到了自己的家乡。对战之地距离李世石的出生地飞禽岛 40 多公里,他曾在飞禽岛度过了他的童年时光,也是在这里决定成为职业围棋选手。
185 0
1:2,李世石最后一战被AI击败,唯一战胜过AlphaGo的人退役了
|
机器学习/深度学习 人工智能 机器人
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
2016 年 11 月,DeepMind 与著名游戏公司暴雪宣布将在即时战略游戏《星际争霸 2》上合作,这家隶属谷歌的公司将在游戏平台中进行人工智能研究。近两年来,DeepMind 的研究进度时有透露,但距离「人机对战」似乎还有很长一段距离。刚刚,DeepMind 宣布即将公布一个有关星际争霸 2 的「最新进展」,而且会以线上直播的形式展现在世人面前。
186 0
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
|
机器学习/深度学习 人工智能
人机世纪大战:机器何时能真正战胜人类? | 起来嗨
谷歌AlphaGo对世界围棋冠军李世石的挑战赛还未开打,这场世纪大战的讨论已急剧升温。 这场围棋手与机器的世纪大战焦点主要集中在两点: 1,谷歌AlphaGo赢得比赛胜利; 2,世界围棋冠军李世石击败谷歌AlphaGo。而这两种观点背后,其实是两种力量在抗争。
223 0
|
安全 算法 机器学习/深度学习
深度 | 打败围棋冠军后,机器智能下一步能战胜黑客吗?
阿里妹导读:从深蓝战胜象棋冠军到AlphaGo战胜围棋冠军,每一次机器智能在特定领域战胜人类,都会引发整个社会的广泛关注。洞察了棋类博弈真相的机器智能,接下来能洞察网络安全的真相并且在黑客博弈中战胜人类吗?在机器智能炙手可热的今天,或许我们该静下心来,去理解机器智能的本质、网络安全的困境以及未来二者结合的挑战。
12712 0
|
机器学习/深度学习 人工智能 算法
【云周刊】第162期:致敬史蒂芬·霍金!传奇谢幕,但人类对宇宙和科技的探索从未止步
致敬史蒂芬·霍金!传奇谢幕,但人类对宇宙和科技的探索从未止步,《金融时报》:中国巨头争夺企业级市场,阿里云份额已近六成,全面解读语音交互技术——Interspeech 2017...更多精彩内容,尽在云周刊!
7609 0
【云周刊】第162期:致敬史蒂芬·霍金!传奇谢幕,但人类对宇宙和科技的探索从未止步
|
人工智能 机器人
不造AI杀人武器当然好,但牛津学者觉得马斯克们忽略了重点
牛津大学的学者Mariarosaria Taddeo (简称玛利亚) 说,他们忽略了一个重点。而且,把万众目光集中在“AI杀手”上,人们就更难注意到那个重点了。
1230 0
|
人工智能 安全
【巨星陨落】霍金今日去世,但人类对宇宙和AI的探索永无止境
霍金去世的消息令全世界都陷入深切哀悼。霍金曾积极关注人工智能,指出我们要对AI发展保持警惕。3月14日也是爱因斯坦诞辰139年的日子,上帝在同一天送来了一位天才,而带走了另一位。人类对宇宙和AI的探索永无止境,让我们以这样的方式祭奠这两位伟人。
15068 0