游戏环境经常被用来评估智能体的“能力”。一般都是给定状态转移概率,以一个分布或者在当前状态采取某个动作以固定的概率转移到下一个状态,以及奖励函数也是确定的。那真实的世界真的是这样的吗?当然不是,真实的世界要比这复杂地多,就连动物都能学地比这更好。
难道就因为Alphago打败了李世石,我们就喊创造通用人工智能吗?在AlphaGo的算法中究竟是穷举还是智能?从model-free到model-based再到search、plan,似乎一切又回到原点,似乎一切都是以前的佳酿换了新瓶,但每次回来是为了下一次出发。
也许我们需要从动物身上学习更多,之后才是模仿人类。Animal-AI 基于动物认知的研究开源了这个测试环境。
- Github链接如下:https://github.com/beyretb/AnimalAI-Olympics
其第一版是19年发表的,主要目的也就是开源一个环境,更好的解决强化学习的泛化问题,虽然说现在也有很多说基于因果推断、认知图谱的才是AI未来发展的下个方向,但也许改变一下测试环境也很有必要,就像之前谷歌研究院做的模仿动物的机械狗一样,从动物身上学,做仿生。
其具体的关于这个环境的所有研究(前人基于这个环境所做研究),以及各种类型的环境,以及竞赛测试平台可以在以下链接找到:
- The Animal-AI Testbed:http://animalaiolympics.com/AAI/testbed