强化学习在阿里的技术演进与业务创新 | 免费资料库

简介: 强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到现在,也差不多有半个世纪左右,它的应⽤场景仍很有限,规模⼤⼀点的问题就会出现维数爆炸,难于计算,所以往往看到的例⼦都是相对简化的场景。

当前的机器学习算法⼤致可以分为有监督的学习、⽆监督的学习和强化学习(Reinforcement Learning)等。强化学习和其他学习⽅法不同之处在于强化学习是智能系统从环境到⾏为映射的学习,以使奖励信号函数值最⼤。如果智能体的某个⾏为策略导致环境正的奖赏,那么智能体以后产⽣这个⾏为策略的趋势便会加强。强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到现在,也差不多有半个世纪左右,它的应⽤场景仍很有限,规模⼤⼀点的问题就会出现维数爆炸,难于计算,所以往往看到的例⼦都是相对简化的场景。

image.png

最近因为与深度学习结合,解决海量数据的泛化问题,取得了让⼈印象深刻的成果。包括DeepMind 的⾃动学习玩ATARI 游戏,以及AlphaGo 在围棋⼤赛中战胜世界冠军等,其背后的强⼤武器就是深度强化学习技术。相对于DeepMind和学术界看重强化学习的前沿研究,阿⾥巴巴则将重点放在推动强化学习技术输出及商业应⽤。

在阿⾥移动电商平台中,⼈机交互的便捷,碎⽚化使⽤的普遍性,页⾯切换的串⾏化,⽤户轨迹的可跟踪性等都要求们的系统能够对变幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。平台作为信息的载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整提供信息(商品、客服机器⼈的回答、路径选择等)的策略,从⽽最⼤化过程累积收益(消费者在平台上的使⽤体验)。基于监督学习⽅式的信息提供⼿段,缺少有效的探索能⼒,系统倾向于给消费者推送曾经发⽣过⾏为的信息单元(商品、店铺或问题答案)。⽽强化学习作为⼀种有效的基于⽤户与系统交互过程建模和最⼤化过程累积收益的学习⽅法,在⼀些阿⾥具体的业务场景中进⾏了很好的实践并得到⼤规模应⽤。

在搜索场景中,阿⾥巴巴对⽤户的浏览购买⾏为进⾏MDP 建模,在搜索实时学习和实时决策计算体系之上,实现了基于强化学习的排序策略决策模型,从⽽使得淘宝搜索的智能化进化⾄新的⾼度。双11 桶测试效果表明,算法指标取得了近20% 的⼤幅提升。在推荐场景中,阿⾥巴巴使⽤了深度强化学习与⾃适应在线学习,通过持续机器学习和模型优化建⽴决策引擎,对海量⽤户⾏为以及百亿级商品特征进⾏实时分析,帮助每⼀个⽤户迅速发现宝贝,提⾼⼈和商品的配对效率,算法效果指标提升了10%~20%。

在智能客服中,如阿⾥⼩蜜这类的客服机器⼈,作为投放引擎的agent,需要有决策能⼒。这个决策不是基于单⼀节点的直接收益来确定,⽽是⼀个较为长期的⼈机交互的过程,把消费者与平台的互动看成是⼀个马尔可夫决策过程,运⽤强化学习框架,建⽴⼀个消费者与系统互动的回路系统,⽽系统的决策是建⽴在最⼤化过程收益上,来达到⼀个系统与⽤户的动态平衡。
在⼴告系统中,如果⼴告主能够根据每⼀条流量的价值进⾏单独出价,⼴告主便可以在各⾃的⾼价值流量上提⾼出价,⽽在普通流量上降低出价,如此容易获得较好的ROI,与此同时平台也能够提升⼴告与访客间的匹配效率。阿⾥巴巴实现了基于强化学习的智能调价技术,对于来到⼴告位的每⼀个访客,根据他们的当前状态去决定如何操作调价,给他们展现特定的⼴告,引导他们的状态向我们希望的⽅向上做⼀步转移,在双11 实测表明,CTR,RPM 和GMV均得到了⼤幅提升。

当然,强化学习在阿⾥巴巴内部的实践远不⽌此,鉴于篇幅限制,这本电⼦书只介绍了其中的⼀部分。未来深度强化学习的发展必定是理论探索和应⽤实践的双链路持续深⼊。希望这本电⼦书能抛砖引⽟,给⼯业界和学术界带来⼀些输⼊,共同推进深度强化学习的更⼤发展。

点击链接免费下载:

https://developer.aliyun.com/topic/download?id=800

相关文章
|
机器学习/深度学习 存储 算法
《强化学习算法在动态环境中的优化之路》
强化学习是一种通过与环境交互以最大化累积奖励为目标的学习方法。在动态环境中,算法面临探索与利用的平衡、学习速度和稳定性等挑战。优化方法包括改进探索策略(如随机探索、基于策略的探索)、提高学习速度(如多步学习、并行学习)和增强稳定性(如经验回放、正则化)。案例表明,这些优化可显著提升智能体在动态环境中的适应能力和性能。
950 20
|
区块链 新制造 新金融
开放下载! | 《消费品生态全链路数智化转型白皮书》
这个时代,消费者获取资讯和购物方式都在极速增加,不同触点之间的切换转化非常频繁。想要做到全面的触达和影响,不仅需要打通线上线下,还需要快闪店、视频购物、网红直播、社交电商、意见领袖推荐等等各种跨界的渠道整合,因此,面向全链路的数智化转型越来越重要。在这份白皮书中,毕马威和阿里云共同提出了消费品生态全链路的数智化转型框架和转型方法论,还进一步分解了25个二级能力指标,为评价数智化成熟度和指明未来建设方向提供衡量工具和实现抓手。从生态全链路视角帮助企业构建适应未来数智经济时代的数智化能力,协助企业获得增量式创新和发展机会。
23438 1
开放下载! | 《消费品生态全链路数智化转型白皮书》
|
机器学习/深度学习 人工智能 自然语言处理
深度强化学习发展概要
强化学习(Reinforcement Learning)是智能体与环境之间进行交互,并将状态映射到动作以获得奖励,实现最优策略的学习机制。与监督学习相比,强化学习不需要样本集,也不需要进行人工标注,而是通过不断尝试来发现不同动作产生的正向或负向的反馈,来指导策略的学习。与无监督式学习相比,强化学习不只是探索事物的特征进行模式识别,而且通过与环境交互建立输入与输出之间的映射关系,目标是得到最优策略。
1294 1
深度强化学习发展概要
|
开发框架 开发者 前端开发
重磅首发 | 承载亿级流量的开发框架,闲鱼Flutter技术解析与实战大公开
去年闲鱼发布的《Flutter in action》为开发者带去一手的实践经验总结,现在《Flutter in action》全新升级啦!这本书并非基础知识的简单罗列,而是从一线问题出发,循序渐进,娓娓道来。不仅把Flutter的重要理念讲得极为清晰, 而且给开发者提供了应对眼前各种问题的实用方法。同时,书中还给出了详尽的可以融会贯通、举一反三的思路,理论陈述和问题分析面面俱到,力求让读者可以获得全面系统的技术知识。
68431 0
重磅首发 | 承载亿级流量的开发框架,闲鱼Flutter技术解析与实战大公开
|
数据采集 机器学习/深度学习 算法
重磅下载 | 6大技术方向 40+篇好文,高德如何做到日活过亿?
回首2019 年,作为首个日活过亿的国民出行平台,高德地图 to C 和 to B 的用户数都再攀新高。在背后支撑和驱动业务快速发展的,正是数千名日夜奋战的高德技术人。现在《高德技术2019年刊合辑》免费推出,6大章节全年盘点,为你揭晓有“温度”的科技!
42575 0
重磅下载 | 6大技术方向 40+篇好文,高德如何做到日活过亿?
|
前端开发 UED 运维
独家首发 | 900页阿里文娱技术实战,8大技术栈解析技术全景
这是一本全面且实用的一本技术合辑,既有技术知识又有业务应用。阿里文娱长期的技术实践与创新经验包罗其中,900页的丰富内容,8大技术栈全景揭秘文娱技术,相信能给技术开发者和文娱行业从业者带来直接的帮助和启发。
33403 0
独家首发 | 900页阿里文娱技术实战,8大技术栈解析技术全景
|
新零售 大数据 物联网
重磅发布!300页阿里巴巴大数据核心技术公开,速度收藏
重磅发布!阿里巴巴大数据团队历时一年,集合25+专家协力打造《像阿里巴巴一样玩转大数据》系列电子书,近300页实战精华。
65442 1
重磅发布!300页阿里巴巴大数据核心技术公开,速度收藏
|
SQL Java 程序员
全新出击!《Java开发手册(嵩山版)》解读手册升级下载
《〈Java开发手册(嵩山版)〉灵魂15问》重磅来袭!“一线大厂如何用Java”解读再升级,千万阅读量博主深究Java规约背后的原理。规范学好Java还不来看一看?
75525 0
全新出击!《Java开发手册(嵩山版)》解读手册升级下载
|
SQL Java 程序员
独家下载!《Java开发手册》灵魂13问,深度剖析一线大厂开发思维
《〈Java开发手册(泰山版)〉灵魂13问》独家首发!全网千万阅读量技术博主深度剖析Java规约背后的原理,从“问题重现”到“原理分析”再到“问题解决”,下载《Java开发手册》必备的伴读书目!
249674 2
独家下载!《Java开发手册》灵魂13问,深度剖析一线大厂开发思维
|
大数据 分布式计算 MaxCompute
独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据
阿里巴巴如何玩转大数据?十位阿里巴巴大数据专家深度分析 ,飞天大数据平台八款产品最新玩法,2019不容错过的大数据手册——《大数据工程师必读手册》现在可以免费下载阅读啦,赶紧先睹为快吧。
138727 0
独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据