《强化学习实战:强化学习在阿里的技术演进和业务创新》| 每天读本书

简介: 本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

强化学习实战:强化学习在阿里的技术演进和业务创新


近年来,随着与深度神经网络的结合,强化学习在以Atari2600和围棋为代表的游戏领域取得了突破性的进展。

与学术界关注的方向不同,在阿里巴巴,我们则将重点放在推动强化学习技术输出及商业应用上。由于基于监督学习方式的信息提供手段,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。

本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部的多条业务线,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

image.png

笪庆、曾安祥 著

图书试读:

在电商任务中,候选集信息主要是候选集的全部打分。为说明这一点,我们不妨先把问题设定在最理想的环境下,有如下几点假设。

(1)强化学习中的折扣系数为 0,单个流量最优化就是全流量最优化。
(2)具备优化目标相关的全部因素,比如优化目标是 RPM,我们有每个广告的预估CTR 和BID。
(3)所有的预估值都是准确的,例如 CTR 和 BID 完全准确。
(4)从因素到优化目标的建模是准确的,例如输入三个广告的顺序和相应的预估 CTR、BID 值,建模能计算出准确的 RPM 收益(甚至已经考虑了三个广告的相互影响)。

在理想的环境下,我们不需要引入除候选集的全部打分外的任何信息,只需穷举广告三元组即可。

把假设条件稍微放松,如预估值或者优化目标建模有瑕疵,我们可以利用强化学习主动探索和对标真实奖赏的特性进行修正。

只有当一些假设严重失真的时候,我们才需要引入候选集的全部打分以外的信息,比如:
(1)当折扣系数大于 0 时,这意味着单流量最优化,并非全流量最优化,而候选集的全部打分只能做到单流量最优化,所以必然引入额外信息;
(2)优化目标相关因素不完备和部分预估值不准确,这二者其实有一定的重叠,它们都要求引入额外信息修正用户的点击、购买估计。

用一个简单的例子说明以上表述的道理。

开学初,老师说期末考题都在教材范围以内,熟练掌握教材就能得到满分。后来老师说,教材内容有错误,熟练掌握教材得 90 分还是有可能的,想得满分要同时参考教材勘误表。再后来老师又说,期末考题不限于教材范围,只看教材最多考 70 分,想得满分要另外参考一本国外教材。

候选集的全部打分其实就是教材,教材(候选集的全部打分)是考试(决策)考高分(获得最优奖赏)的基础,其他资料(如用户最近的行为偏好)是教材的纠正或补充。

相关文章
|
6月前
|
存储 算法 测试技术
大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难
大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难
246 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术:从理论到实践的探索之旅
AI技术:从理论到实践的探索之旅
|
3月前
|
机器学习/深度学习 人工智能 算法
就AI 基础设施的演进与挑战问题之大模型训练过程中的问题如何解决
就AI 基础设施的演进与挑战问题之大模型训练过程中的问题如何解决
|
3月前
|
存储 人工智能 Cloud Native
就AI 基础设施的演进与挑战问题之寻求当前场景下的最优解的问题如何解决
就AI 基础设施的演进与挑战问题之寻求当前场景下的最优解的问题如何解决
|
3月前
|
人工智能
就AI 基础设施的演进与挑战问题之通过应用核心概念来优化研发过程的问题如何解决
就AI 基础设施的演进与挑战问题之通过应用核心概念来优化研发过程的问题如何解决
|
5月前
|
人工智能 大数据
创新之路:技术进步与持续学习的关系
在技术发展迅速的时代,持续学习成为创新的关键。本文探讨了技术进步与个人学习之间的相互作用,强调了不断学习与实践在推动技术创新和个人职业发展中的重要性。
155 15
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
|
5月前
|
机器学习/深度学习 设计模式 人工智能
人工智能和机器学习技术来优化微服务架构
人工智能和机器学习技术来优化微服务架构
92 1
|
4月前
|
人工智能 监控 前端开发
前端架构(含演进历程、设计内容、AI辅助设计、架构演进历程)
前端架构(含演进历程、设计内容、AI辅助设计、架构演进历程)
74 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在持续学习系统中的进化之路
【5月更文挑战第15天】 随着技术的不断进步,人工智能(AI)已成为推动现代科技革新的核心动力。特别是在机器学习领域,AI系统的能力正通过持续学习机制得到显著增强。本文深入探讨了AI技术在实现自我进化方面的最新进展,分析了持续学习系统的关键组成部分,包括数据获取、模型适应性以及算法优化等方面。同时,文章还着重讨论了在设计这些系统时所面临的挑战,如数据偏差、计算资源限制和伦理问题,并提出了可能的解决方案。