浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显

简介: 【2月更文挑战第22天】浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显

59b000df9ec046e174d9c207c986c6af.jpeg
在人工智能领域,自我进化的智能体一直是研究者们梦寐以求的目标。最近,浙江大学与中国科学院的联合研究团队取得了突破性进展,他们共同研发了一种新型的大型语言模型基础智能体——Agent-Pro。这一智能体不仅能够在游戏中学习并提升其行为策略,更在德州扑克这一复杂的心理游戏中展现出了令人瞩目的心机和策略。

Agent-Pro的核心特点在于其策略级反思和优化能力。与传统的基于行动级反思的智能体不同,Agent-Pro能够迭代反思过去的轨迹和信念,对不合理的信念进行微调,从而优化其行为策略。这种能力使得Agent-Pro在面对复杂动态场景时,能够更加灵活和高效地做出决策。

Agent-Pro的设计灵感来源于心智理论,它赋予智能体自我认知和对外部世界的认知。在观察到部分信息后,Agent-Pro会更新其自我信念和世界信念,并基于这些信念做出决策。这种设计使得智能体在面对不完全信息的任务时,能够更好地适应和学习。

在Blackjack和Texas Hold’em两款游戏的评估中,Agent-Pro的表现超越了传统的大型语言模型和专门模型。特别是在德州扑克中,Agent-Pro不仅学会了如何根据对手的风格和游戏规则调整策略,还掌握了虚张声势等心理战术,显示出了与人类玩家相似的战略思维。

Agent-Pro的成功不仅在于其在游戏评估中的优异表现,更在于其展现出的学习和进化能力。它通过构建动态信念,在不确定场景中进行决策,并通过反思交互经验,纠正不合理的信念,将其总结为行为指南和世界描述的新策略。这种自我进化的能力,为未来人工智能的发展提供了新的可能性。

然而,Agent-Pro仍有其局限性。首先,它的学习过程高度依赖于基础模型的能力,尤其是其推理和反思能力。这意味着,如果基础模型的这些能力受限,Agent-Pro的表现也会受到影响。其次,尽管Agent-Pro在游戏评估中取得了显著的进步,但与游戏场景中最先进的算法相比,仍可能存在一定的差距。未来的研究需要继续探索如何进一步提升Agent-Pro的性能,并建立一套基准测试来全面评估其行为。

论文地址:https://arxiv.org/abs/2402.17574

目录
相关文章
|
9月前
|
人工智能 自然语言处理 测试技术
从高考到奥林匹克竞技场:大模型与人类智能的终极较量
【6月更文挑战第29天】上海交大等团队的OlympicArena测试评估了大模型在多学科认知推理任务上的能力,涵盖7个学科11,163个问题。最先进模型GPT-4的整体准确率为39.97%,数学和物理仅28.67%和29.71%,显示在复杂推理任务上的局限。尽管如此,模型在部分推理步骤中展现出潜力,但在空间推理和抽象符号理解上仍有挑战。[论文链接](https://arxiv.org/pdf/2406.12753)
65 1
|
Web App开发 机器学习/深度学习 人工智能
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
121 0
|
机器学习/深度学习 人工智能 算法
人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!
最近,Facebook的研究人员开发了一个玩德州扑克的人工智能,可以轻松击败人类玩家,它跟DeepMind的AlphaZero有何不同?今天我们就来看下。
403 0
人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!
|
机器学习/深度学习 人工智能 算法
1:2,李世石最后一战被AI击败,唯一战胜过AlphaGo的人退役了
退役赛的最后一局,李世石回到了自己的家乡。对战之地距离李世石的出生地飞禽岛 40 多公里,他曾在飞禽岛度过了他的童年时光,也是在这里决定成为职业围棋选手。
207 0
1:2,李世石最后一战被AI击败,唯一战胜过AlphaGo的人退役了
|
机器学习/深度学习 人工智能 机器人
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
2016 年 11 月,DeepMind 与著名游戏公司暴雪宣布将在即时战略游戏《星际争霸 2》上合作,这家隶属谷歌的公司将在游戏平台中进行人工智能研究。近两年来,DeepMind 的研究进度时有透露,但距离「人机对战」似乎还有很长一段距离。刚刚,DeepMind 宣布即将公布一个有关星际争霸 2 的「最新进展」,而且会以线上直播的形式展现在世人面前。
190 0
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
|
机器学习/深度学习 人工智能 算法
洞悉AlphaGo超越围棋大师的力量:机器之心邀你一起强化学习
美国计算机协会会刊(CACM)9 月发表了《强化学习的复兴》一文,深度介绍了强化学习的运用及其与深度学习的比较。强化学习是机器学习的主要三种类型之一,被应用在多种训练任务中。我们熟知的 AlphaGo 中就用到了大量的强化学习。「人工智能研学社· 强化学习组」将强化学习作为第一期学习内容,与大家分享有关深度学习的基本知识。本期教学内容推荐 Rich Suntton 教授关于强化学习的演讲视频——强化学习介绍及与函数近似结合的讨论。
327 0
洞悉AlphaGo超越围棋大师的力量:机器之心邀你一起强化学习
|
人工智能 机器人
不造AI杀人武器当然好,但牛津学者觉得马斯克们忽略了重点
牛津大学的学者Mariarosaria Taddeo (简称玛利亚) 说,他们忽略了一个重点。而且,把万众目光集中在“AI杀手”上,人们就更难注意到那个重点了。
1237 0