强化学习在阿里的技术演进与业务创新 | 免费资料库

简介: 强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到现在,也差不多有半个世纪左右,它的应⽤场景仍很有限,规模⼤⼀点的问题就会出现维数爆炸,难于计算,所以往往看到的例⼦都是相对简化的场景。

当前的机器学习算法⼤致可以分为有监督的学习、⽆监督的学习和强化学习(Reinforcement Learning)等。强化学习和其他学习⽅法不同之处在于强化学习是智能系统从环境到⾏为映射的学习,以使奖励信号函数值最⼤。如果智能体的某个⾏为策略导致环境正的奖赏,那么智能体以后产⽣这个⾏为策略的趋势便会加强。强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到现在,也差不多有半个世纪左右,它的应⽤场景仍很有限,规模⼤⼀点的问题就会出现维数爆炸,难于计算,所以往往看到的例⼦都是相对简化的场景。

image.png

最近因为与深度学习结合,解决海量数据的泛化问题,取得了让⼈印象深刻的成果。包括DeepMind 的⾃动学习玩ATARI 游戏,以及AlphaGo 在围棋⼤赛中战胜世界冠军等,其背后的强⼤武器就是深度强化学习技术。相对于DeepMind和学术界看重强化学习的前沿研究,阿⾥巴巴则将重点放在推动强化学习技术输出及商业应⽤。

在阿⾥移动电商平台中,⼈机交互的便捷,碎⽚化使⽤的普遍性,页⾯切换的串⾏化,⽤户轨迹的可跟踪性等都要求们的系统能够对变幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。平台作为信息的载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整提供信息(商品、客服机器⼈的回答、路径选择等)的策略,从⽽最⼤化过程累积收益(消费者在平台上的使⽤体验)。基于监督学习⽅式的信息提供⼿段,缺少有效的探索能⼒,系统倾向于给消费者推送曾经发⽣过⾏为的信息单元(商品、店铺或问题答案)。⽽强化学习作为⼀种有效的基于⽤户与系统交互过程建模和最⼤化过程累积收益的学习⽅法,在⼀些阿⾥具体的业务场景中进⾏了很好的实践并得到⼤规模应⽤。

在搜索场景中,阿⾥巴巴对⽤户的浏览购买⾏为进⾏MDP 建模,在搜索实时学习和实时决策计算体系之上,实现了基于强化学习的排序策略决策模型,从⽽使得淘宝搜索的智能化进化⾄新的⾼度。双11 桶测试效果表明,算法指标取得了近20% 的⼤幅提升。在推荐场景中,阿⾥巴巴使⽤了深度强化学习与⾃适应在线学习,通过持续机器学习和模型优化建⽴决策引擎,对海量⽤户⾏为以及百亿级商品特征进⾏实时分析,帮助每⼀个⽤户迅速发现宝贝,提⾼⼈和商品的配对效率,算法效果指标提升了10%~20%。

在智能客服中,如阿⾥⼩蜜这类的客服机器⼈,作为投放引擎的agent,需要有决策能⼒。这个决策不是基于单⼀节点的直接收益来确定,⽽是⼀个较为长期的⼈机交互的过程,把消费者与平台的互动看成是⼀个马尔可夫决策过程,运⽤强化学习框架,建⽴⼀个消费者与系统互动的回路系统,⽽系统的决策是建⽴在最⼤化过程收益上,来达到⼀个系统与⽤户的动态平衡。
在⼴告系统中,如果⼴告主能够根据每⼀条流量的价值进⾏单独出价,⼴告主便可以在各⾃的⾼价值流量上提⾼出价,⽽在普通流量上降低出价,如此容易获得较好的ROI,与此同时平台也能够提升⼴告与访客间的匹配效率。阿⾥巴巴实现了基于强化学习的智能调价技术,对于来到⼴告位的每⼀个访客,根据他们的当前状态去决定如何操作调价,给他们展现特定的⼴告,引导他们的状态向我们希望的⽅向上做⼀步转移,在双11 实测表明,CTR,RPM 和GMV均得到了⼤幅提升。

当然,强化学习在阿⾥巴巴内部的实践远不⽌此,鉴于篇幅限制,这本电⼦书只介绍了其中的⼀部分。未来深度强化学习的发展必定是理论探索和应⽤实践的双链路持续深⼊。希望这本电⼦书能抛砖引⽟,给⼯业界和学术界带来⼀些输⼊,共同推进深度强化学习的更⼤发展。

点击链接免费下载:

https://developer.aliyun.com/topic/download?id=800

相关文章
|
7月前
|
机器学习/深度学习 人工智能 Cloud Native
助力 AI 技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE”
技术开源是蚂蚁集团的重要技术战略,我们希望通过开源建立起开放、包容的技术生态,让更多人共享技术红利。
助力 AI 技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE”
|
7月前
|
消息中间件 存储 缓存
阿里P8架构师带你“一窥”大型网站架构的主要技术挑战和解决方案
传统的企业应用系统主要面对的技术挑战是处理复杂凌乱、千变万化的所谓业务逻辑,而大型网站主要面对的技术挑战是处理超大量的用户访问和海量的数据处理;前者的挑战来自功能性需求,后者的挑战来自非功能性需求;功能性需求也许还有“人月神话”聊以自慰,通过增加人手解决问题,而非功能需求大多是实实在在的技术难题,无论有多少工程师,做不到就是做不到。
|
机器学习/深度学习 人工智能 供应链
如何构建数字化时代的人才转型方案,Adobe用人工智能给出方案
如何构建数字化时代的人才转型方案,Adobe用人工智能给出方案
如何构建数字化时代的人才转型方案,Adobe用人工智能给出方案
|
机器学习/深度学习 人工智能 达摩院
2022最火的AIGC落地怎么用,阿里达摩院团队深度解读
2022最火的AIGC落地怎么用,阿里达摩院团队深度解读
520 0
|
Anolis 开发者 智能硬件
今天3点,15年行业经验大咖在线解读:标准如何助力开源发展 | 第 55 期
今天下午3点,了解标准如何帮助开源项目合规、提升生态兼容性与开源社区健康发展。
今天3点,15年行业经验大咖在线解读:标准如何助力开源发展 | 第 55 期
|
机器学习/深度学习
《强化学习在阿里的技术演进与业务创新》电子版地址
强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到现在,也差不多有半个世纪左右,它的应⽤场景仍很有限,规模⼤⼀点的问题就会出现维数爆炸,难于计算,所以往往看到的例⼦都是相对简化的场景。
167 0
《强化学习在阿里的技术演进与业务创新》电子版地址
|
机器学习/深度学习 人工智能 Cloud Native
专访 MindSpore 黄之鹏:社区治理与商业创新的开源双重奏
专访 MindSpore 黄之鹏:社区治理与商业创新的开源双重奏
专访 MindSpore 黄之鹏:社区治理与商业创新的开源双重奏
|
人工智能 自然语言处理 算法
35岁技术人如何转型做管理?阿里高级算法专家公开10大思考
35岁左右对工程师而言是个不同寻常的年龄段。技术人有可能面临人生中的转型:从纯技术岗转向管理岗。也将面临诸多新的挑战,关于组建团队、领导以及KPI设置等。本文将讲述阿里资深技术leader张荣从去年1月底接手CRO线NLP算法团队以来,在团队组建、能力建设、以及管理上的一些思考。这些思考从实践中来,总结出一套方法论,希望能给予转型中的技术人一些启发。 张荣,花名威视,现任职阿里巴巴 CRO 线 NLP 算法团队 leader ,长期聚焦于 NLP 、图像识别、视频分析算法领域。
3396 0
35岁技术人如何转型做管理?阿里高级算法专家公开10大思考
|
弹性计算 城市大脑 小程序
不穷:阿里企业大脑最佳实践
一个好产品的产生,就是由数字化的能力加上一个好的治理思想,进行碰撞,进行结合,才会创新出数字化转型成果。阿里巴巴副总裁、企业智能/政企云/数字政务中台事业部负责人叶军为您带来阿里巴巴企业大脑战略和智能实现的最佳实践。
不穷:阿里企业大脑最佳实践
|
机器学习/深度学习 人工智能 自动驾驶
公开下载 | 让刷剧更带感!“划时代”文娱体验背后有何技术较量?
AI弹幕、VR技术、5G超清......这在十年前可能都只是停留在人们想象中的文娱新体验,如今已经普及开来。如何让刷剧更“带感”?阿里巴巴文娱有答案!刷剧前下载,刷剧后阅读,8位阿里技术专家为你详解那些你不知道的智慧文娱关键技术!
18149 0
公开下载 | 让刷剧更带感!“划时代”文娱体验背后有何技术较量?
下一篇
DataWorks