【干货】3万字剖析强化学习在电商环境下应用

简介: 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。本文介绍了4篇强化学习论文,结合淘宝的实践经验,用近三万字深度剖析了强化学习在电商环境下进行实时搜索排序、分层流量调控、搭建虚拟环境等的应用。

随着搜索技术的持续发展,我们已经逐渐意识到监督学习算法在搜索场景的局限性:

  • 搜索场景中,只有被当前投放策略排到前面的商品,才会获得曝光机会,从而形成监督学习的正负样本,而曝光出来的商品,只占总的召回商品中的很小一部分,训练样本是高度受当前模型的 bias 影响的。
  • 监督学习的损失函数,和业务关注的指标之间,存在着不一致性。
  • 用户的搜索、点击、购买行为,是一个连续的序列决策过程,监督模型无法对这个过程进行建模,无法优化长期累积奖赏。

与此同时,强化学习的深度学习化,以及以 Atari 游戏和围棋游戏为代表的应用在近几年得到了空前的发展,使得我们开始着眼于这项古老而又时尚的技术,并以此为一条重要的技术发展路线,陆陆续续地在多个业务和场景,进行了强化学习建模,取得了一些初步成果,相关的工作已经在整理发表中。同时我们也深知,目前强化学习的算法理论上限和工业界中大规模噪声数据之间,还存在着很大的 gap,需要有更多的智慧去填补。

基于强化学习的实时搜索排序调控

淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。

因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。传统的 Learning to Rank(LTR)方法主要是在商品维度进行学习,根据商品的点击、成交数据构造学习样本,回归出排序权重。

尽管 Contextual LTR 方法可以根据用户的上下文信息对不同的用户给出不同的排序结果,但它没有考虑到用户搜索商品是一个连续的过程。这一连续过程的不同阶段之间不是孤立的,而是有着紧密的联系。换句话说,用户最终选择购买或不够买商品,不是由某一次排序所决定,而是一连串搜索排序的结果。

ae138cfb1b221157a51f1233e3b6b11af664b24b

图1:搜索的序列决策模型

d7bc8496da570d67d72b3f6fcf5e904dce6e2d85

图2:强化学习agent和环境交互

本文接下来的内容将对淘宝具体的方案进行详细介绍。

强化学习为何有用?——延迟奖赏在搜索排序场景中的作用分析

我们用强化学习(Reinforcement Learning,RL)在搜索场景中进行了许多的尝试,例如:对商品排序策略进行动态调节、控制个性化展示比例、控制价格 T 变换等。

虽然从顺序决策的角度来讲,强化学习在这些场景中的应用是合理的,但我们并没有回答一些根本性的问题,比如:

  • 在搜索场景中采用强化学习和采用多臂老虎机有什么本质区别?
  • 从整体上优化累积收益和分别独立优化每个决策步骤的即时收益有什么差别?

每当有同行问到这些问题时,我们总是无法给出让人信服的回答。因为我们还没思考清楚一个重要的问题,即:在搜索场景的顺序决策过程中,任意决策点的决策与后续所能得到的结果之间的关联性有多大?

从强化学习的角度讲,也就是后续结果要以多大的比例进行回传,以视为对先前决策的延迟激励。也就是说我们要搞清楚延迟反馈在搜索场景中的作用。

本文将以继续以搜索场景下调节商品排序策略为例,对这个问题展开探讨。

本文余下部分的将组织如下:

  • 第二节对搜索排序问题的建模进行回顾。
  • 第三节将介绍最近的线上数据分析结果。
  • 第四节将对搜索排序问题进行形式化定义。
  • 第五节和第六节分别进行理论分析和实验分析并得出结论。

基于强化学习分层流量调控

今天的淘宝俨然已经成为了一个规模不小的经济体,因此,社会经济学里面讨论的问题,在我们这几乎无不例外的出现了。早期的淘宝多数是通过效率优先的方式去优化商品展示的模式,从而产生了给消费者最初的刻板印象:低价爆款,这在当时是有一定的历史局限性而产生的结果,但肯定不是我们长期希望看到的情形。

因为社会大环境在变化,人们的消费意识也在变化,如果我们不能同步跟上,甚至是超前布局的话,就有可能被竞争对手赶上,错失良机。因此有了我们近几年对品牌的经营,以至于现在再搜索 “连衣裙” 这样的词,也很难看到 9 块 9 包邮的商品,而这个在 3 年之前仍然很常见。

而这里的品牌和客单等因素,是通过一系列的计划经济手段来进行干预的,类似于上文福利经济学第二定理中的禀赋分配,依据的是全局的的观察和思考,很难而且也不可能通过一个局部的封闭系统(例如搜索的排序优化器)来实现。

因此,越来越多的运营和产品同学,鉴于以上的思考,提出了很多干预的分层,这里的分层指的是商品 / 商家类型的划分,可以从不同的维度来划分,比如,按照对平台重要性将天猫商家划分成 A、B、C 和 D 类商家;按照品牌影响力将商品划分为高调性和普通商品;按照价格将商品划分为高端、中等、低端商品等。

14fd16104b4a3a3beafe7825cd8bb24d7aa1252e

局部最优和全局最优

而早期的算法同学对这些可能也不够重视,一个经典的做法即简单加权,这通常往往会带来效率上的损失,因此结果大多也是不了了之。但当我们认真审视这个问题的时候,我们其实可以预料,损失是必然的,因为一个纯粹的市场竞争会在当前的供需关系下逐步优化,达到一个局部最优,所以一旦这个局部最优点被一个大的扰动打破,其打破的瞬间必然是有效率损失的,但是其之后是有机会达到比之前的稳定点更优的地方。

虚拟淘宝(联合研究项目)

在某些场景下中应用强化学习 (例如围棋游戏中的 AlphaGo), 进行策略探索的成本是非常低的。而在电商场景下, 策略探索的成本会比较昂贵, 一次策略评估可能需要一天并且差的策略往往对应着经济损失, 这是在线应用强化学习遇到的一个普遍问题, 限制了强化学习在真实场景下的应用。

a8911de0e994b296a049fcf0334dfda825a33b7b

真实淘宝和虚拟淘宝

针对这个问题, 我们和强化学习方面的知名专家, 南京大学机器学习与数据挖掘研究所的俞扬副教授进行了深度合作, 通过逆向建模环境, 尝试构建了一个 “淘宝模拟器”, 在该模拟器上, 策略探索的几乎没有成本, 并且可以快速进行策略评估。而且在这样一个模拟器上, 不仅可以对各种 RL 算法进行离线尝试, 而且还可以进行各种生态模拟实验, 辅助战略性决策。

8ec0e0c0a6f093a1433528a101ada9dba6a120e7

多智能体逆强化学习


参与人员:阿里巴巴 搜索事业部 - AI 技术及应用:胡裕靖、詹宇森、潘春香、笪庆、曾安祥
虚拟淘宝合作方 南京大学:侍竞成、陈士勇、俞扬(副教授)

这四篇文章,结合淘宝的实践经验,用了近三万字深度剖析了强化学习在电商环境下的若干应用与研究!


原文发布时间为:2018-01-09

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【干货】3万字剖析强化学习在电商环境下应用

相关文章
|
8月前
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
285 10
【中文竞技场】大模型深度体验与测评
|
人工智能 算法 PyTorch
AI 全自动玩斗地主,靠谱吗?Douzero算法教程
你觉得,AI 全自动玩斗地主,胜率能有多高? 真就有100%胜率,实现欢乐豆自由? 我让这个 AI 自己玩了一小时,结果出乎意料。
2471 0
AI 全自动玩斗地主,靠谱吗?Douzero算法教程
|
1月前
|
存储 人工智能 JSON
全方位碾压chatGPT4的全球最强模型Claude 3发布!速通指南在此!保姆级教学拿脚都能学会!
全方位碾压chatGPT4的全球最强模型Claude 3发布!速通指南在此!保姆级教学拿脚都能学会!
|
2月前
|
API 文件存储 决策智能
抢鲜评测AgentScope:Agent+游戏制作+视频生成的新范式
LLM-Powered Agent凭借长期记忆+自主规划+自动执行等特性,是探索人工通用智能(AGI)的可能途径之一;而Multi-Agent让多个agent通讯来实现协作,也模拟了人类社交及工作协同场景,旨在探索更高质高效的人机协作模式。
|
2月前
|
人工智能 编解码 自然语言处理
Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货
Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货
Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货
|
8月前
中文竞技场大模型体验评测分析
中文竞技场大模型体验
398 0
中文竞技场大模型体验评测分析
|
8月前
|
自然语言处理
|
4月前
|
机器学习/深度学习 算法 机器人
深度强化学习之gym扫地机器人环境的搭建(持续更新算法,附源码,python实现)
深度强化学习之gym扫地机器人环境的搭建(持续更新算法,附源码,python实现)
103 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
牛刀小试:我用自创的测试集参加了阿里中文竞技场双模型评测
8月我自己创建了一个包含320个问题的大语言模型测试集,刚好阿里魔搭社区正在举办中文模型评测活动,本着对这些模型效果的好奇,刚好手里也有“验丹指南”,所以就抽时间来玩一把模型测试。
|
机器学习/深度学习 人工智能 监控
《花雕学AI》23:中文调教ChatGPT的秘诀:体验测试与通用案例,解锁无限有趣玩法!
ChatGPT是一个基于深度学习的中文对话生成系统,它可以根据用户的输入,生成流畅、自然、有趣的对话回复。ChatGPT不仅可以进行各种主题和风格的闲聊,还可以进行各种类型和形式的创作、学习、娱乐和社交。ChatGPT具有强大的逻辑推理和创造性思维能力,可以应对各种复杂和有趣的情境和挑战。 但是,要充分发挥ChatGPT的潜力和魅力,你需要了解如何调教它,让它更符合你的期望和需求。在本文中,我将为你揭示中文调教ChatGPT的秘诀,通过体验测试和通用案例,让你解锁无限有趣玩法,享受与ChatGPT的对话乐趣。请跟随我,一起探索ChatGPT的奇妙世界吧!
546 0