《强化学习实战:强化学习在阿里的技术演进和业务创新》| 每天读本书

简介: 本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

强化学习实战:强化学习在阿里的技术演进和业务创新


内容简介:

近年来,随着与深度神经网络的结合,强化学习在以Atari2600和围棋为代表的游戏领域取得了突破性的进展。

与学术界关注的方向不同,在阿里巴巴,我们则将重点放在推动强化学习技术输出及商业应用上。由于基于监督学习方式的信息提供手段,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。

本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部的多条业务线,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

笪庆、曾安祥 著
电子工业出版社 出版

image.png

图书试读:

在电商任务中,候选集信息主要是候选集的全部打分。为说明这一点,我们不妨先把问题设定在最理想的环境下,有如下几点假设。

(1)强化学习中的折扣系数为 0,单个流量最优化就是全流量最优化。
(2)具备优化目标相关的全部因素,比如优化目标是 RPM,我们有每个广告的预估CTR 和BID。
(3)所有的预估值都是准确的,例如 CTR 和 BID 完全准确。
(4)从因素到优化目标的建模是准确的,例如输入三个广告的顺序和相应的预估 CTR、BID 值,建模能计算出准确的 RPM 收益(甚至已经考虑了三个广告的相互影响)。

在理想的环境下,我们不需要引入除候选集的全部打分外的任何信息,只需穷举广告三元组即可。

把假设条件稍微放松,如预估值或者优化目标建模有瑕疵,我们可以利用强化学习主动探索和对标真实奖赏的特性进行修正。

只有当一些假设严重失真的时候,我们才需要引入候选集的全部打分以外的信息,比如:

(1)当折扣系数大于 0 时,这意味着单流量最优化,并非全流量最优化,而候选集的全部打分只能做到单流量最优化,所以必然引入额外信息;
(2)优化目标相关因素不完备和部分预估值不准确,这二者其实有一定的重叠,它们都要求引入额外信息修正用户的点击、购买估计。

用一个简单的例子说明以上表述的道理。

开学初,老师说期末考题都在教材范围以内,熟练掌握教材就能得到满分。后来老师说,教材内容有错误,熟练掌握教材得 90 分还是有可能的,想得满分要同时参考教材勘误表。再后来老师又说,期末考题不限于教材范围,只看教材最多考 70 分,想得满分要另外参考一本国外教材。

候选集的全部打分其实就是教材,教材(候选集的全部打分)是考试(决策)考高分(获得最优奖赏)的基础,其他资料(如用户最近的行为偏好)是教材的纠正或补充。

目录
打赏
0
0
0
0
17
分享
相关文章
探索软件测试的深度与广度:从基础到创新####
【10月更文挑战第22天】 本文深入探讨了软件测试的多维度重要性,通过生动案例和实用策略,揭示了提升测试效率与质量的关键路径。它既是一篇技术指南,也是对软件测试艺术的一次哲理性思考,旨在启发读者重新审视测试工作的核心价值与未来趋势。 ####
68 1
就AI 基础设施的演进与挑战问题之寻求当前场景下的最优解的问题如何解决
就AI 基础设施的演进与挑战问题之寻求当前场景下的最优解的问题如何解决
创新之路:技术进步与持续学习的关系
在技术发展迅速的时代,持续学习成为创新的关键。本文探讨了技术进步与个人学习之间的相互作用,强调了不断学习与实践在推动技术创新和个人职业发展中的重要性。
235 15
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
【机器学习】AI在空战决策中的崛起:从理论到实践的跨越
【机器学习】AI在空战决策中的崛起:从理论到实践的跨越
237 0
拥抱不确定性:在技术迭代中寻找创新的灵感
【4月更文挑战第30天】 在快速变化的技术世界里,不确定性并非是障碍,而是推动我们前进的力量。本文将探讨如何在技术的不断进化中捕捉灵感,并将其转化为创新成果。我们将通过分析技术进步的模式、心理层面的适应机制以及实践中的策略,来揭示如何在不确定性中找到成长和成功的机会。文章的核心在于鼓励技术人员培养一种开放的心态,学会在变革中寻找机遇,从而不断推动个人和行业的边界。
深度强化学习在大模型中的应用:现状、问题和发展
强化学习在大模型中的应用具有广泛的潜力和机会。通过使用强化学习算法,如DQN、PPO和TRPO,可以训练具有复杂决策能力的智能体,在自动驾驶、机器人控制和游戏玩家等领域取得显著成果。然而,仍然存在一些挑战,如样本效率、探索与利用平衡以及可解释性问题。未来的研究方向包括提高样本效率、改进探索策略和探索可解释的强化学习算法,以进一步推动强化学习在大模型中的应用。
2246 3
助力 AI 技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE”
技术开源是蚂蚁集团的重要技术战略,我们希望通过开源建立起开放、包容的技术生态,让更多人共享技术红利。
助力 AI 技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE”
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
541 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等