支持Python 3.10,OpenAI强化学习工具包Gym迎来史上最大更新

简介: 支持Python 3.10,OpenAI强化学习工具包Gym迎来史上最大更新

OpenAI 创建的 Gym 是开源的 Python 库,通过提供一个用于在学习算法和环境之间通信的标准 API 以及一组符合该 API 的标准环境,来开发和比较强化学习(DL)算法。自推出以来,Gym 的 API 已经成为了领域标准。

目前,在 Gym 的项目主页,Star 量已经达到了 26.6k。


项目地址:https://github.com/openai/gym

近日,Gym 迎来了迄今为止最大的更新,包括 API 变化、环境变化和其他变化。

API 变化

首先是 API 变化,包括如下:

  • env.reset 接受 3 个新的参数(options - 对于无再次初始化环境时控制课程学习等操作有用;seed - 未来环境 seed 可以传递到 reset 参数。老的 .seed() 方法被弃用,但考虑到向后兼容,该方法在 Gym 1.0 发布之前仍继续如常工作;infos - 当设置为 True,reset 将返回 obs, info。当前这种做法默认为 False,但将变成 Gym 1.0 版本的默认行为);
  • 环境名称在注册期间不再需要一个版本,并将智能推荐类似名称;
  • Vector 环境支持 info 中的 terminal_observation 并支持批处理操作空间。


环境变化

  • blackjack 和 frozen lake 示例环境现在使用 PyGame 进行了更好的图形渲染;
  • 机器人环境已移动到 gym-robotics 包中;
  • bipedal walker 和 lunar lander 环境现在被合并称为一类;
  • Atari 环境现在使用标准种子 API 了;
  • 修复了 car_racing box2d 环境中的大错误修复,碰撞版本;
  • 重构了所有 box2d 和 classic_control 环境,以使用 PyGame 而不是 Pyglet。因为 pyglet 的问题一直是 gym 项目生命周期中最常见的 GitHub 问题来源之一。


其他变化

  • 移除 DiscreteEnv 类,内置环境将不再使用;
  • 增加了大数类型提示;
  • 支持 Python 3.10 版;
  • 大量额外的代码重构、清理、错误消息改进和小错误修复;
  • 所有环境文件的描述文件现在都有了明显改进。


相关文章
|
8月前
|
机器学习/深度学习 算法 调度
基于多动作深度强化学习的柔性车间调度研究(Python代码实现)
基于多动作深度强化学习的柔性车间调度研究(Python代码实现)
387 1
|
8月前
|
存储 缓存 测试技术
理解Python装饰器:简化代码的强大工具
理解Python装饰器:简化代码的强大工具
|
9月前
|
程序员 测试技术 开发者
Python装饰器:简化代码的强大工具
Python装饰器:简化代码的强大工具
300 92
|
10月前
|
数据安全/隐私保护 Python
微信群成员导出工具, 微信群成员导出软件, 微信群管理工具软件【python】
这个工具提供了完整的微信群成员导出功能,包括登录微信、获取群列表、导出成员信息到Excel等功能
|
8月前
|
机器学习/深度学习 编解码 Python
Python图片上采样工具 - RealESRGANer
Real-ESRGAN基于深度学习实现图像超分辨率放大,有效改善传统PIL缩放的模糊问题。支持多种模型版本,推荐使用魔搭社区提供的预训练模型,适用于将小图高质量放大至大图,放大倍率越低效果越佳。
637 3
|
8月前
|
机器学习/深度学习 算法 安全
【强化学习应用(八)】基于Q-learning的无人机物流路径规划研究(Python代码实现)
【强化学习应用(八)】基于Q-learning的无人机物流路径规划研究(Python代码实现)
612 6
|
9月前
|
数据处理 开发工具 开发者
requirement.txt 管理python包依赖
在 Python 项目中,`requirements.txt` 用于记录依赖库及其版本,便于环境复现。本文介绍了多种生成该文件的方法:基础方法使用 `pip freeze`,进阶方法使用 `pipreqs`,专业方法使用 `poetry` 或 `pipenv`,以及手动维护方式。每种方法适用不同场景,涵盖从简单导出到复杂依赖管理,并提供常见问题的解决方案,帮助开发者高效生成精准的依赖列表,确保项目环境一致性。
2685 4
|
9月前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
1532 1
|
8月前
|
算法 安全 数据安全/隐私保护
Python随机数函数全解析:5个核心工具的实战指南
Python的random模块不仅包含基础的随机数生成函数,还提供了如randint()、choice()、shuffle()和sample()等实用工具,适用于游戏开发、密码学、统计模拟等多个领域。本文深入解析这些函数的用法、底层原理及最佳实践,帮助开发者高效利用随机数,提升代码质量与安全性。
1204 0
|
9月前
|
机器学习/深度学习 算法 调度
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究(Python代码实现)
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究(Python代码实现)
368 0

推荐镜像

更多