深度强化学习中实验环境-开源平台框架汇总

简介: 深度强化学习中实验环境-开源平台框架汇总

本文汇总了常用的验证强化学习算法的开源环境平台。

  当我们设计了一个强化学习算法之后,我们如何来验证算法的好坏呢?就像数据集一样,我们需要一个公认的平台来衡量这个算法。这样的一个平台,最基本的需要有仿真和渲染。

OpenAI Gym and Universe

  业界最出名的莫过于GymUniverse了。OpenAI Gym用于评估和比较强化学习算法的好坏。它的接口支持在任何框架下的算法,像TensorFlow, Theano, Keras这些都可以。

  Gym库收集、解决了很多环境的测试过程中的问题,能够很好地使得你的强化学习算法得到很好地Work。并且含有游戏界面,能够帮助你去写通用性更强的算法。业界现在主流的就是这个环境,如果有还没有了解过的,需要配置的同学,可以参考我之前写的一篇详细的安装使用教程:强化学习环境-Gym安装到使用入门

  在各大顶会上经常会看到用于连续控制物理引擎的MuJoCo但这个收费的。

RoboSchool

  作为MuJoCo实现的替代品,OpenAI开发了基于Bullet物理引擎的Roboschool 。它提供了OpenAI Gym形式的接口用于模拟机器人控制。目前包含了12个环境。其中除了传统的类似MuJoCo的场景,还有交互控制,及多智能体控制场景。

  Gym中还有用于机械臂的抓取和灵巧手的机械手、机械臂环境Robotics:

  OpenAI Universe相当于是OpenAI Gym的一个扩展,它所能提供的环境更加的复杂,有即时战略游戏的味道,对决策时间有一定的要求。

  Universe的发布也算是业界福音,任何程序都可以被转换成一个Gym的环境。Universe 通过自动启动程序在一个VNC远程桌上进行工作,所以它不需要对程序内部、源码或者bot API的特别访问。环境被打包Docker镜像,安装使用将更加方便。

DeepMind Lab

  DeepMind Lab是一个第一人称3D游戏平台,它以丰富的科幻视觉来呈现场景。可用的操作能让智能体环顾四周,并以3D的形式移动。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间移动、玩激光笔、以及快速学习并记住随机生成的环境。DeepMind Lab已经成为DeepMind内部的一个主要研究平台,DeepMind Lab同时拥有更丰富的视觉效果和更自然的物理效果。

Project Malmo

  Malmo由微软剑桥研究员Katja Hofmann带领开发,是Microsoft基于Minecraft(我的世界)开发的一个人工智能实验和研究平台。这个平台也还用于第一届协同AI挑战赛

  Malmo是用于多智能体强化学习算法的开源平台,要求智能体之间相互合作,将协同AI做到极致。并且研究人员还可以加速《我的世界》中的时钟,加快试验速度。

ViZDoom

  ViZDoom提供了用AI玩毁灭战士游戏的环境(一人称射击类游戏)。它提供的是一个多智能体竞争博弈的一个环境,用于测试算法的好坏。

我的微信公众号名称:深度学习先进智能决策

微信公众号ID:MultiAgent1024

公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章
|
机器学习/深度学习 人工智能 搜索推荐
|
Kubernetes 安全 Cloud Native
带你读《云原生机密计算最佳实践白皮书》——AMD SEV机密容器(1)
带你读《云原生机密计算最佳实践白皮书》——AMD SEV机密容器(1)
1149 0
|
测试技术 Linux Python
有了Pycharm,就卸载掉Postman吧
有了Pycharm,就卸载掉Postman吧
|
Ubuntu Shell 芯片
配置udev规则
本文介绍了如何配置udev规则以解决USB设备别名问题,包括为特定USB设备创建别名、修改设备权限、重新加载udev规则以及设置Python包管理工具pip的镜像源以加速下载。
643 0
|
自然语言处理
中文自然语言处理数据集:ChineseNLPCorpus(附链接)
本文为你推荐中文自然语言处理数据集。
5559 0
【原创】java 获取十个工作日之前或之后的日期(算当天)-完美解决-费元星
【原创】java 获取十个工作日之后的日期(算当天)-完美解决-费元星(仅考虑星期六星期天) /** * * 根据开始日期 ,需要的工作日天数 ,计算工作截止日期,并返回截止日期 * @param startDate 开始日期 * @param workDay 工作日天数(周一到周五) ...
2466 0
|
存储 SQL 运维
Oracle--活跃回滚段损坏故障恢复
当前数据库由活跃事务时活跃回滚段损坏无备份时处理过程。
550 0
|
网络协议 数据安全/隐私保护 网络架构
[教程]将win7电脑变身WiFi热点(非connectify,APwifi)一种稳定,便捷,网速好的方法
背景:为了纪念逝去的点卡和月卡,以及警院转为闪讯以后给诸多wifi设备上网带来不便的tx,希望此文能解决生活中的一些麻烦。   注1: 开启windows 7的隐藏功能:虚拟WiFi和SoftAP(即虚拟无线AP),就可以让电脑变成无线路由器,实现共享上网,节省网费和路由器购买费。
5917 0
|
数据采集 数据可视化 数据挖掘
从数据到洞察:Python 数据分析实例
在当今数据驱动的时代,数据分析已经成为企业和组织决策的重要依据。Python 作为一种强大的数据分析工具,提供了丰富的库和工具,使得数据分析变得更加简单和高效。在本文中,我们将通过一个实际的案例,介绍如何使用 Python 进行数据分析,从数据到洞察。

热门文章

最新文章