百度飞桨世界冠军带你从零实践强化学习第四天(三岁白话时间)

简介: 这里是三岁,这里吧第四的素材和资料整理了一下,大家康康,有什么不足的欢迎提出,批评指正!!!

这里是三岁,这里吧第四的素材和资料整理了一下,大家康康,有什么不足的欢迎提出,批评指正!!!


基于策略梯度求解RL



Value-based vs policy-based


20200621163448188.png

Value-based


Value-based 是基于价值的,属于一种确定性策略

在计算时先求出Q的值然后把Q网络调到最优以后用间接方式输出action,属于确定性的策略,


20200621163954726.png


policy-based


policy-based 是基于策略的,属于一种随机策略

policy-based使用神经网络拟合直接一步到位求出action输出的是一种概率最后是一种随机的策略。适用于随机性比较大的项目。


20200621164054239.png

20200621164901655.png


πθ(at|st)代表在st的转态下输出at的概率有多大、所有的概率之和为一,概率越大的越容易被采样到。

为了输出概率会在神经网络最后加上一个softmax的函数。将多个输出映射到一个(0,1)的区间中去,可以看成是一个概率。


20200621165025853.png


整个优化的目的是为了使每一个Episode(幕)可以理解为每一场比赛,的总的reward(分数,利益)最大化


轨迹Trajectory


20200621165914723.png


智能体的选择是我们需要优化的策略,智能体不断的和环境发生交互,在不同的环境中随机选择最好的策略,已获得最好的结果,然而环境是不可选择的,只能够不断的在交互过程中选择最好的策略。


20200621170952327.png


一条智能体的选择与环境的交互选择连起来直到结束成为一条轨迹也就相当于这个episode的结束。


期望回报


20200621172605607.png


当求出所有的轨迹的回报值(收益)的时候可以求出来他的平均回报值,通过该回报值来判断该策略的好坏。


但是因为策略轨迹太多了是无穷的所以采用了采样的方式来获取,当数据样本足够大的时候就可以近似为平均回报。


优化策略


Q网络


20200621172206384.png


Q的预测值和Q的预期值进行对比要求Loss越低越好,越低距离预期越远。


  • policy 网络


20200621172706571.png


由于policy网络的策略梯度是没有预期值的所以就需要上面说到的期望回报,只有结果越高才能够有更大的收益。通过轨迹的收益,不断强化网路,促使收益高的出现概率更高。


蒙特卡洛MC与时间差分TD


  • 蒙特卡洛 回合更新制度,每一回合进行一次更新
  • 时序差分 为每一步都更新


PEINFORCE


先产生一个回合的数据,利用公式计算每一回合的总收益,用来更新网络


20200621174715316.png

以上基本上就是今天的理论知识啦,这里是三岁,有是和你白话的一天,希望大家多多支持,点赞关注收藏评论,有问题可以私聊呦!!!

目录
相关文章
|
并行计算 PyTorch 算法框架/工具
mmcv-full1.3.8 在win10上的安装
mmcv-full1.3.8 在win10上的安装
703 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
魔搭社区模型速递(4.20-4.26)
魔搭ModelScope本期社区进展:2227个模型,270个数据集,167个创新应用,10篇内容
524 4
|
10月前
|
Ubuntu 应用服务中间件 网络安全
MyEMS开源系统安装之Debian/Ubuntu(上)
本文详细讲解在Debian或Ubuntu服务器上部署MyEMS的步骤,分为上下篇。本篇(上)涵盖以下内容: 1. **前提准备**:介绍支持的操作系统版本及硬件需求,克隆MyEMS源代码。 2. **数据库安装**:参考外部链接完成数据库配置。 3. **myems-api服务**:包括环境配置、依赖安装、防火墙设置及systemd服务配置。 4. **myems-admin模块**:安装和配置Nginx服务器,设置反向代理,部署myems-admin前端。 5. **myems-modbus-tcp服务**:安装依赖、配置环境变量并启动服务。
304 2
|
安全 网络安全 数据安全/隐私保护
窃听攻击(Eavesdropping Attack)
【8月更文挑战第10天】
899 2
|
人工智能 Kubernetes Cloud Native
跨越鸿沟:PAI-DSW 支持动态数据挂载新体验
本文讲述了如何在 PAI-DSW 中集成和利用 Fluid 框架,以及通过动态挂载技术实现 OSS 等存储介质上数据集的快速接入和管理。通过案例演示,进一步展示了动态挂载功能的实际应用效果和优势。
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
322 2
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
447 3
|
存储 编译器 Python
python文件处理-CSV文件的读取、处理、写入
python文件处理-CSV文件的读取、处理、写入
1315 0
python文件处理-CSV文件的读取、处理、写入
|
机器学习/深度学习 人工智能 自然语言处理
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
2461 4
文件太大不能拷贝到U盘怎么办?实用解决方案全解析
当我们试图将一个大文件拷贝到U盘时,却突然跳出提示“对于目标文件系统目标文件过大”。这种情况让人感到迷茫,尤其是在急需备份或传输数据的时候。那么,文件太大为什么会无法拷贝到U盘?又该如何解决?本文将详细分析这背后的原因,并提供几个实用的方法,帮助你顺利将文件传输到U盘。