《强化学习实战:强化学习在阿里的技术演进和业务创新》| 每天读本书

简介: 本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

强化学习实战:强化学习在阿里的技术演进和业务创新


内容简介:

近年来,随着与深度神经网络的结合,强化学习在以Atari2600和围棋为代表的游戏领域取得了突破性的进展。

与学术界关注的方向不同,在阿里巴巴,我们则将重点放在推动强化学习技术输出及商业应用上。由于基于监督学习方式的信息提供手段,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。

本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部的多条业务线,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

笪庆、曾安祥 著
电子工业出版社 出版

image.png

图书试读:

在电商任务中,候选集信息主要是候选集的全部打分。为说明这一点,我们不妨先把问题设定在最理想的环境下,有如下几点假设。

(1)强化学习中的折扣系数为 0,单个流量最优化就是全流量最优化。
(2)具备优化目标相关的全部因素,比如优化目标是 RPM,我们有每个广告的预估CTR 和BID。
(3)所有的预估值都是准确的,例如 CTR 和 BID 完全准确。
(4)从因素到优化目标的建模是准确的,例如输入三个广告的顺序和相应的预估 CTR、BID 值,建模能计算出准确的 RPM 收益(甚至已经考虑了三个广告的相互影响)。

在理想的环境下,我们不需要引入除候选集的全部打分外的任何信息,只需穷举广告三元组即可。

把假设条件稍微放松,如预估值或者优化目标建模有瑕疵,我们可以利用强化学习主动探索和对标真实奖赏的特性进行修正。

只有当一些假设严重失真的时候,我们才需要引入候选集的全部打分以外的信息,比如:

(1)当折扣系数大于 0 时,这意味着单流量最优化,并非全流量最优化,而候选集的全部打分只能做到单流量最优化,所以必然引入额外信息;
(2)优化目标相关因素不完备和部分预估值不准确,这二者其实有一定的重叠,它们都要求引入额外信息修正用户的点击、购买估计。

用一个简单的例子说明以上表述的道理。

开学初,老师说期末考题都在教材范围以内,熟练掌握教材就能得到满分。后来老师说,教材内容有错误,熟练掌握教材得 90 分还是有可能的,想得满分要同时参考教材勘误表。再后来老师又说,期末考题不限于教材范围,只看教材最多考 70 分,想得满分要另外参考一本国外教材。

候选集的全部打分其实就是教材,教材(候选集的全部打分)是考试(决策)考高分(获得最优奖赏)的基础,其他资料(如用户最近的行为偏好)是教材的纠正或补充。

相关文章
|
11天前
|
存储 NoSQL 关系型数据库
从大数据到大模型:如何做到“心无桎梏,身无藩篱”
在大数据和大模型的加持下,现代数据技术释放了巨大的技术红利,通过多种数据范式解除了数据的桎梏,使得应用程序达到了“心无桎梏,身无藩篱”的自在境界,那么现代应用有哪些数据范式呢?这正是本文尝试回答的问题。
164 20
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术:从理论到实践的探索之旅
AI技术:从理论到实践的探索之旅
|
4月前
|
机器学习/深度学习 人工智能 算法
就AI 基础设施的演进与挑战问题之大模型训练过程中的问题如何解决
就AI 基础设施的演进与挑战问题之大模型训练过程中的问题如何解决
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI运作的基本理论
AI已从科幻走进现实,融入日常生活,如智能手机助手、智能家居、自动驾驶等。AI的发展是一部科学史诗,从简单逻辑推理进化到深度学习。机器学习作为核心,包含监督、无监督学习及深度学习等,如卷积神经网络处理图像、递归神经网络处理序列数据。AI在医疗、金融、教育等多个领域广泛应用,如辅助诊断、市场分析、个性化教学等,同时带来就业、隐私及伦理等社会议题。随着技术进步,AI正重塑世界,需谨慎管理其影响以惠及全人类。
68 2
|
4月前
|
存储 人工智能 Cloud Native
就AI 基础设施的演进与挑战问题之寻求当前场景下的最优解的问题如何解决
就AI 基础设施的演进与挑战问题之寻求当前场景下的最优解的问题如何解决
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
|
6月前
|
机器学习/深度学习 人工智能 算法
【机器学习】AI在空战决策中的崛起:从理论到实践的跨越
【机器学习】AI在空战决策中的崛起:从理论到实践的跨越
201 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
492 0
|
机器学习/深度学习 人工智能 算法
AIGC背后的演进趋势
AIGC背后的演进趋势
155 2
|
机器学习/深度学习 算法 双11
强化学习在阿里的技术演进与业务创新 | 免费资料库
强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到现在,也差不多有半个世纪左右,它的应⽤场景仍很有限,规模⼤⼀点的问题就会出现维数爆炸,难于计算,所以往往看到的例⼦都是相对简化的场景。
2810 0
强化学习在阿里的技术演进与业务创新 | 免费资料库