本文将介绍OpenAI用强化学习的方法玩Dota过程中的难点,并列出其中的一些不足。将会用简单的语言来呈现其中的技术。
OpenAI训练强化学习智能体完成许多短期的目标(如攻击对方,并保证自己存活)进而取得整场比赛的胜利。通过大量的短期任务实现整场比赛的胜利。OpenAI Five’s 所需要去完成的事情是用计算机程序实现在Dota游戏中打败职业选手。像AlphaGo在围棋界一扫群雄一样,只不过这次是在Dota游戏中。OpenAI Five与人类玩家不同的是它们直接使用被处理过的APIs(使得游戏尽可能公平)。
那么OpenAI到底解决了什么问题?媒体是否夸大了其中的成绩呢?核心的技术又是什么样的?
所需要解决的问题?
简单地说,人工智能或者说是计算机程序是期望在每一种游戏状态下都能做出很好地动作,而人类的思维却并不总是这样,人类玩Dota通常是前期酝酿发育,到最后关头将对方击败,最终目的是将对方击败。计算机是非常难以处理这种需要运筹规划而达到最终胜利的事情,运筹规划的时间越长,越难处理。
评估动作而不是指导
计算机最大的优势就是算力,那有没有办法穷举所有的情况呢?其实是没有的,由游戏的画面数据量所限制,穷举也不是AI的本质。
与指导计算机做事情不一样的强化学习算法:通过与环境不断地交互,告诉计算机哪些动作是选到了好的动作,而不是直接告诉计算机哪些动作是好动作。近些年,强化学习算法也取得了不错的成果,像在围棋Alpha Go, Atari游戏,以及最近取得不小进步的机器人控制领域。
强化学习的难点?
将强化学习应用在Dota中有哪些难点?
1. Long horizon
强化学习在经过非常多的复杂序列动作之后才能获得最终的奖励,在Dota游戏中,最终的奖励就是将对方水晶打掉。但是在强化学习最开始训练的过程中,动作是随机的,强化学习智能体很难使用随机的动作取得游戏的胜利,也就很难学习到有效的数据,专业术语叫做奖励稀疏。
2.Credit assignments
即使取得了游戏最终的胜利,那到底是哪个动作对这场游戏做出的贡献比较大呢?里面是否存在不正确的动作呢?更新幅度又应该怎么设定呢?
OpenAI---奖励重塑
通过自己构建小目标奖励来解决Long horizon 和Credit assignments问题。完成的奖励构建表链接:
https://gist.github.com/dfarhi/66ec9d760ae0c49a5c492c9fae93984a
除了OpenAI采取的奖励重塑解决奖励稀疏问题外,还有好奇心理论,课程学习,ICM,自我博弈,层次强化,模仿学习,以及最近比较热的基于模型的预测规划模型等方法解决奖励稀疏问题。
OpenAI有力武器---自我博弈
博弈研究的问题可以分为:合作博弈和非合作博弈,现代狭义的博弈一般是非合作博弈,OpenAI采用的也是非合作博弈。非合作博弈又可以分为完美信息博弈和非完美信息博弈,显然在Dota里面对手的信息并不是完全可见,因此属于非完美信息博弈,这种非完美信息,在马尔可夫决策过程当中又被称之为部分马尔可夫决策过程。
OpenAI通过自我博弈来最大化短期奖励,学会如何击败对方,而保证自己存活下来。通过自我博弈可以将计算机的算力转化为强化学习所需要的训练数据。