AI学习笔记之——强化学习(Reinforcement Learning, RL)

简介: 诚如在之前文章提到的,机器学习按照从那里学的角度可以分为:监督学习,无监督学习和强化学习三大类。之前的文章大多数都是介绍的前两类,而第三类强化学习(RL)确是最接近我们所想象的人工智能。

诚如在之前文章提到的,机器学习按照从那里学的角度可以分为:监督学习,无监督学习和强化学习三大类。之前的文章大多数都是介绍的前两类,而第三类强化学习(RL)确是最接近我们所想象的人工智能。

强化学习简介

强化学习(RL)就是在环境中与环境的互动不停地学习的,非常像人类学习走路,学习骑车,学习游泳等等。

想象一下自己刚刚开始学习骑自行车的样子,东扭西歪的,还摔过不少跤,最后才逐渐熟练掌握的。这种东扭西歪的动作恰恰就是对周围环境的不停反馈,如果动作不当摔倒了,就是个负反馈,下次再做这个动作就要小心了。用力蹬踏板的时候车子就向前走,这就是个正反馈,要继续保持这个动作前进。

与学习监督学习和非监督学习不一样,强化学习涉及到环境(Environment),反馈(Reward),智能体(Agent),Action(行动)并不是写几段Python代码,找个数据库就能开始学习的。还好,现在有有如OpenAI这样的开源平台,让初学者能够很快通过游戏的形式上手强化学习的项目。

在这里我简单介绍一个OpenAI 里面的小游戏,抛砖引玉让大家理解一下什么是强化学习。

OpenAI

OpenAI 的gym里面有一个叫(cart_pos的小游戏)[gym.openai.com],就是水平方向上有一个可以左右移动的平台,平台上有一个木棍,在重力的作用下会左右摇摆,你要做的事情就是左右移动平台使其保持平衡不要掉下来。

img_24ec46a849a1bda6d434fe6f8f3f47e5.gif

游戏的环境参数实际上就是如下图的四个变量:
[Horizontal Position,Horizontal Velocity, Angle of Pole, Angular Velocity]

img_b317ef5fa782bfba7827cf10c8cf5334.png

首先以最简单的方式造一个机器人。

# Gotta import gym!
import gym

# Make the environment, replace this string with any
# from the docs. (Some environments have dependencies)
env = gym.make('CartPole-v0')

# Reset the environment to default beginning
env.reset()

# Using _ as temp placeholder variable
for _ in range(1000):
    # Render the env
    env.render()

    # 这里是关键
    env.step(env.action_space.sample()) # take a random action

这段代码不多解释,可以参考官方网文档, 其中最关键的是这一句

    env.step(env.action_space.sample())

我们实际上是让平台随机移动,可以想象结果是这样的。


img_23eb9a0529e2ddd4618be0a45ae66b8b.gif

代码控制Agent

一般学习的对象我们叫做机器人或者Agent, 我们怎么简单地让这个Agent 智能一下呢?

最简单的方法就是当棍子向左偏的时候(Angle >0)就向右移动(Action = 1),向右偏(Angle<=0)就向左移动(Action = 0)。代码实现如下:

注意,四个环境变量是需要在obseervation中提取出来的,角度参数就是pole_ang

import gym
env = gym.make('CartPole-v0')
# print(env.action_space.)
# #> Discrete(2)
# print(env.observation_space)
# #> Box(4,)
observation = env.reset()

for t in range(1000):

    env.render()

    cart_pos , cart_vel , pole_ang , ang_vel = observation

    # Move Cart Right if Pole is Falling to the Right

    # Angle is measured off straight vertical line
    if pole_ang > 0:
        # Move Right
        action = 1
    else:
        # Move Left
        action = 0

    # Perform Action
    observation , reward, done, info = env.step(action)
    print(observation)

效果如下,虽然还是不稳定,但是比让平台随机移动还是有了点效果。


img_b7ab25c38cf6c076fc61a58f721774a5.gif

总结

注意上面通过if语句实现对Agent的控制,是完全没有用到机器学习的,因为逻辑是写死的,机器根本就没有“学习”的过程。

这里用这个例子只是简单让读者理解强化学习是什么,就是向人一样,通过行动和环境的反馈不停地修正进行学习的。后续的文章会引入神经网路,让机器学起来。


相关文章
AI学习笔记之——如何理解机器学习(Machine Learning)
人工智能学习笔记之——人工智能基本概念和词汇
人工智能学习笔记二 —— 定义问题

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言或者访问我的Steemit主页

目录
相关文章
|
28天前
|
机器学习/深度学习 人工智能 运维
强化学习加持运维:AI 也能学会“打补丁”和“灭火”?
强化学习加持运维:AI 也能学会“打补丁”和“灭火”?
114 13
|
4月前
|
机器学习/深度学习 人工智能 UED
直击强化学习前沿,RL专场来袭丨AI Insight Talk直播预告
在知识爆炸、信息过载的时代,如何洞悉 AI 领域前沿趋势?OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk
89 0
|
3月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
3月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
5月前
|
人工智能 API 开发者
用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频
魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。
1950 41
|
5月前
|
人工智能 IDE 开发工具
📘 AI Clouder认证学习笔记|从初入江湖到晨光乍现
正如史蒂夫·乔布斯所言:“求知若渴,虚心若愚。”本文是一篇AI Clouder认证学习笔记,记录了一位初学者在探索AI领域的过程中所经历的挑战与成长。作者分享了从软件安装问题到技术工具掌握的心路历程,并强调了心态与自驱力的重要性。通过Python编程、通义灵码等工具的学习,以及对教学设计的深刻反思。
118 5
|
5月前
|
Web App开发 人工智能 JSON
Windows版来啦!Qwen3+MCPs,用AI自动发布小红书图文/视频笔记!
上一篇用 Qwen3+MCPs实现AI自动发小红书的最佳实践 有超多小伙伴关注,同时也排队在蹲Windows版本的教程。
778 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
QwQ-32B为襄阳职业技术学院拥抱强化学习的AI力量
信息技术学院大数据专业学生团队与UNHub平台合作,利用QwQ-32B模型开启AI教育新范式。通过强化学习驱动,构建职业教育智能化实践平台,支持从算法开发到应用的全链路教学。QwQ-32B具备320亿参数,优化数学、编程及复杂逻辑任务处理能力,提供智能教学助手、科研加速器和产教融合桥梁等应用场景,推动职业教育模式创新。项目已进入关键训练阶段,计划于2025年夏季上线公测。
236 10
QwQ-32B为襄阳职业技术学院拥抱强化学习的AI力量
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
3162 2

热门文章

最新文章