《强化学习实战:强化学习在阿里的技术演进和业务创新》| 每天读本书

简介: 本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

强化学习实战:强化学习在阿里的技术演进和业务创新


近年来,随着与深度神经网络的结合,强化学习在以Atari2600和围棋为代表的游戏领域取得了突破性的进展。

与学术界关注的方向不同,在阿里巴巴,我们则将重点放在推动强化学习技术输出及商业应用上。由于基于监督学习方式的信息提供手段,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。

本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部的多条业务线,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

image.png

笪庆、曾安祥 著

图书试读:

在电商任务中,候选集信息主要是候选集的全部打分。为说明这一点,我们不妨先把问题设定在最理想的环境下,有如下几点假设。

(1)强化学习中的折扣系数为 0,单个流量最优化就是全流量最优化。
(2)具备优化目标相关的全部因素,比如优化目标是 RPM,我们有每个广告的预估CTR 和BID。
(3)所有的预估值都是准确的,例如 CTR 和 BID 完全准确。
(4)从因素到优化目标的建模是准确的,例如输入三个广告的顺序和相应的预估 CTR、BID 值,建模能计算出准确的 RPM 收益(甚至已经考虑了三个广告的相互影响)。

在理想的环境下,我们不需要引入除候选集的全部打分外的任何信息,只需穷举广告三元组即可。

把假设条件稍微放松,如预估值或者优化目标建模有瑕疵,我们可以利用强化学习主动探索和对标真实奖赏的特性进行修正。

只有当一些假设严重失真的时候,我们才需要引入候选集的全部打分以外的信息,比如:
(1)当折扣系数大于 0 时,这意味着单流量最优化,并非全流量最优化,而候选集的全部打分只能做到单流量最优化,所以必然引入额外信息;
(2)优化目标相关因素不完备和部分预估值不准确,这二者其实有一定的重叠,它们都要求引入额外信息修正用户的点击、购买估计。

用一个简单的例子说明以上表述的道理。

开学初,老师说期末考题都在教材范围以内,熟练掌握教材就能得到满分。后来老师说,教材内容有错误,熟练掌握教材得 90 分还是有可能的,想得满分要同时参考教材勘误表。再后来老师又说,期末考题不限于教材范围,只看教材最多考 70 分,想得满分要另外参考一本国外教材。

候选集的全部打分其实就是教材,教材(候选集的全部打分)是考试(决策)考高分(获得最优奖赏)的基础,其他资料(如用户最近的行为偏好)是教材的纠正或补充。

相关文章
|
机器学习/深度学习 数据采集 算法
【机器学习】基于机器学习的分类算法对比实验
【机器学习】基于机器学习的分类算法对比实验
743 6
【机器学习】基于机器学习的分类算法对比实验
|
机器学习/深度学习 人工智能 自然语言处理
Hugging Face 论文平台 Daily Papers 功能全解析
【9月更文挑战第23天】Hugging Face 是一个专注于自然语言处理领域的开源机器学习平台。其推出的 Daily Papers 页面旨在帮助开发者和研究人员跟踪 AI 领域的最新进展,展示经精心挑选的高质量研究论文,并提供个性化推荐、互动交流、搜索、分类浏览及邮件提醒等功能,促进学术合作与知识共享。
1042 0
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
1074 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
应用服务中间件 网络安全 Apache
宝塔面板占用443端口怎么解决
宝塔面板占用443端口怎么解决
|
机器学习/深度学习 人工智能 并行计算
【AI系统】GPU 架构回顾(从2010年-2017年)
自1999年英伟达发明GPU以来,其技术不断革新。本文概述了从2010年至2024年间,英伟达GPU的九代架构演变,包括费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏和布莱克韦尔。这些架构不仅在游戏性能上取得显著提升,还在AI、HPC、自动驾驶等领域发挥了重要作用。CUDA平台的持续发展,以及Tensor Core、NVLink等技术的迭代,巩固了英伟达在计算领域的领导地位。
1058 1
|
机器学习/深度学习 分布式计算 算法
【算法工程师】成为一名优秀的机器学习算法工程师所需知识及资料汇总-附思维导图
成为一名优秀的机器学习算法工程师所需要具备的技能和知识,包括理论基础、数学能力、编程技能、实践经验以及对特定领域的深入了解,并提供了学习资源和面试准备建议。
974 3
【算法工程师】成为一名优秀的机器学习算法工程师所需知识及资料汇总-附思维导图
|
算法 开发工具 索引
三消游戏查找算法的原理和实现
三消游戏查找算法的原理和实现
540 1
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的高校共享单车管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的高校共享单车管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
621 0
|
机器学习/深度学习 自然语言处理
【大模型】在大语言模型的架构中,Transformer有何作用?
【5月更文挑战第5天】【大模型】在大语言模型的架构中,Transformer有何作用?
|
机器学习/深度学习 存储 人工智能
基于NumPy构建LSTM模块并进行实例应用(附代码)
基于NumPy构建LSTM模块并进行实例应用(附代码)
684 0