《强化学习实战:强化学习在阿里的技术演进和业务创新》| 每天读本书

简介: 本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

强化学习实战:强化学习在阿里的技术演进和业务创新


近年来,随着与深度神经网络的结合,强化学习在以Atari2600和围棋为代表的游戏领域取得了突破性的进展。

与学术界关注的方向不同,在阿里巴巴,我们则将重点放在推动强化学习技术输出及商业应用上。由于基于监督学习方式的信息提供手段,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。

本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得,覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部的多条业务线,是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节,其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

image.png

笪庆、曾安祥 著

图书试读:

在电商任务中,候选集信息主要是候选集的全部打分。为说明这一点,我们不妨先把问题设定在最理想的环境下,有如下几点假设。

(1)强化学习中的折扣系数为 0,单个流量最优化就是全流量最优化。
(2)具备优化目标相关的全部因素,比如优化目标是 RPM,我们有每个广告的预估CTR 和BID。
(3)所有的预估值都是准确的,例如 CTR 和 BID 完全准确。
(4)从因素到优化目标的建模是准确的,例如输入三个广告的顺序和相应的预估 CTR、BID 值,建模能计算出准确的 RPM 收益(甚至已经考虑了三个广告的相互影响)。

在理想的环境下,我们不需要引入除候选集的全部打分外的任何信息,只需穷举广告三元组即可。

把假设条件稍微放松,如预估值或者优化目标建模有瑕疵,我们可以利用强化学习主动探索和对标真实奖赏的特性进行修正。

只有当一些假设严重失真的时候,我们才需要引入候选集的全部打分以外的信息,比如:
(1)当折扣系数大于 0 时,这意味着单流量最优化,并非全流量最优化,而候选集的全部打分只能做到单流量最优化,所以必然引入额外信息;
(2)优化目标相关因素不完备和部分预估值不准确,这二者其实有一定的重叠,它们都要求引入额外信息修正用户的点击、购买估计。

用一个简单的例子说明以上表述的道理。

开学初,老师说期末考题都在教材范围以内,熟练掌握教材就能得到满分。后来老师说,教材内容有错误,熟练掌握教材得 90 分还是有可能的,想得满分要同时参考教材勘误表。再后来老师又说,期末考题不限于教材范围,只看教材最多考 70 分,想得满分要另外参考一本国外教材。

候选集的全部打分其实就是教材,教材(候选集的全部打分)是考试(决策)考高分(获得最优奖赏)的基础,其他资料(如用户最近的行为偏好)是教材的纠正或补充。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
XAI:探索AI决策透明化的前沿与展望
XAI:探索AI决策透明化的前沿与展望
88 0
|
4天前
|
机器学习/深度学习 存储 人工智能
构建未来:AI在持续学习系统中的进化之路
【5月更文挑战第8天】 随着人工智能(AI)技术的飞速发展,AI系统正逐步从单一任务处理转向多任务、持续学习的智能体。本文将深入探讨AI技术在持续学习系统中的最新进展,包括深度学习、强化学习以及转移学习等关键技术。文章还将讨论如何通过这些技术实现AI系统的适应性、泛化能力和自我进化,从而推动AI在多变环境中的长期应用和自主决策能力。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在持续学习系统中的进化
【4月更文挑战第27天】 随着技术的进步,人工智能(AI)已经从单一任务处理的静态系统转变为能够适应和学习新知识的动态实体。这种转变的核心在于持续学习系统(Lifelong Learning Systems),它允许AI不断积累知识,跨领域应用所学,并在不断变化的环境中保持相关性。本文将探讨AI持续学习系统的关键技术进展,包括神经网络的可塑性、转移学习和元学习策略,并分析这些技术如何推动AI向更高层次的认知能力迈进。
|
1月前
|
机器学习/深度学习 存储 人工智能
构建未来:AI在持续学习系统中的进化
随着人工智能(AI)技术的飞速发展,AI系统正逐步从静态、单一任务的学习模式转变为动态、多任务的持续学习系统。这种转变要求AI不仅能在初始训练后执行特定任务,而且能在不断变化的环境中适应新数据和任务。本文将探讨AI在持续学习系统中的关键进化路径,包括增量学习、迁移学习、元学习以及相应的优化策略,旨在为构建能够自我演化、适应未知挑战的智能系统提供理论基础和技术框架。
|
4月前
|
机器学习/深度学习 人工智能 Cloud Native
助力 AI 技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE”
技术开源是蚂蚁集团的重要技术战略,我们希望通过开源建立起开放、包容的技术生态,让更多人共享技术红利。
助力 AI 技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE”
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
324 0
|
12月前
|
存储 人工智能 自然语言处理
AIGC背后涉及到的几个技术解读、AIGC未来的演进趋势、AIGC的畅想
AIGC背后涉及到的几个技术解读、AIGC未来的演进趋势、AIGC的畅想
601 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT发展历程、原理、技术架构详解和产业未来(上)
ChatGPT发展历程、原理、技术架构详解和产业未来(上)
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT发展历程、原理、技术架构详解和产业未来(下)
ChatGPT发展历程、原理、技术架构详解和产业未来(下)
|
12月前
|
机器学习/深度学习 人工智能 算法
AIGC背后的演进趋势
AIGC背后的演进趋势
100 2