论文Express | 淘宝广告是怎么优化的?阿里团队实时竞价系统策略-阿里云开发者社区

开发者社区> 大数据文摘> 正文

论文Express | 淘宝广告是怎么优化的?阿里团队实时竞价系统策略

简介:

经常逛淘宝的同学应该会发现,淘宝移动客户端首页下拉有一个“猜你喜欢”的板块,经常会推荐一些你曾经在淘宝搜索过的相关物品,偶尔确实给大家带来小惊喜,那么淘宝是怎么做到的呢?

最近,阿里团队在arXiv.org上发表了两篇关于实时竞价(RTB)系统中的算法的论文,称不仅能帮助商家在广告竞价中给出合理的策略,还能最大化商家的利润。

以下是第一篇论文部分内容:

基于多智能体强化学习的实时竞价案例

实时广告为广告商提供了一个为每个展位的访客竞价的平台。为了优化特定目标,如最大化广告投放带来的收入,广告商不仅需要估计广告和用户兴趣之间的相关性,最重要的是需要对其他广告商在市场竞价方面做出战略回应。本文提出了一个实用的分布协同多智能体竞价系统(DCMAB),并用于平衡广告商之间交易的竞争和合作关系。并利用阿里行业的实际数据已经证明了该建模方法的有效性。

竞价优化是实时竞价最关心的问题之一,其目的是帮助广告商为每次拍卖的展示给出合理的出价,最大化竞价系统的关键绩效指标(KPI),如点击量或利润。传统的竞价算法缺陷在于将竞价优化作为一个静态问题,从而无法实现合理的实时竞价问题。

多智能体强化学习的关键在于如何设计使每个智能体良好合作的机制和学习算法。淘宝有数量庞大的广告商,多智能体强化学习正好可以用来解燃眉之需。

淘宝的展示广告系统

在淘宝广告系统中,大多广告商不仅投放广告,也在淘宝电子商务平台上销售他们的产品。淘宝广告系统可以分为三部分如下图所示:第一步是进行匹配。通过挖掘用户的行为数据获得用户的偏好预测,当接受到用户请求时,根据实际情况,从整个广告语料库中实时匹配部分候选广告(通常按照顺序)。其次,实时预测系统(RTP)预测每个推荐广告的点击率(pCTR)和转化率(pCVR)。最后,对候选广告进行实时竞价和排名显示。

91fccf4aa8549f526b03886fea307ec028d4673c

淘宝广告系统概述

匹配、实时预测和排名依次处理用户的请求,然后返回特定数量的广告。这些广告展示在淘宝客户端的“猜你喜欢”板块中。

多智能体广告竞价算法原理

将实时竞价看作一个随机游戏,也叫做Markov对策。Markov 对策是将多步对策看作一个随机过程,并将传统的Markov 决策过程( MDP)扩展到多个参与者的分布式决策过程(参考文献:李晓萌, 杨煜普, 许晓鸣. 基于 MarkoV对策和强化学习的多智能体协作研究[J]. 上海交通大学学报, 2001, 35(2):288-292.)。

04884dca15a4ec0848498257e097cb2a32e1bdda

商家和消费者被分在不同的集群中。每个商家群集都有一个Agent来调整不同消费者集群的广告竞价。 对于行动a_ij,i迭代的是商家集群数,j为消费者集群数。 bratio_k代表商户k的基本调整率。

由于输出行为(竞价调整)处于连续空间中,论文采用梯度确定性策略来学习竞价算法。

d9a38cab313c1345d5b9028570514bb6d56b53e1

(a)淘宝广告系统中的DCMAB工作流程图

状态服务器负责维护Agent的工作状态,包括总体信息g,消费分布d和消费静态特征x^q。

e7eadf9de2fab4bd3a28d6e90d782f4e2e72e132

(b)DCMAB 网络结构设计

DCMAB示意图

算法实现流程图如下:

e09aacdc3ed3f465918330074e76de8a6a0893bc

实验

数据集和评估设置

  • 数据集来自阿里的行业数据,广告的推荐效果展示在淘宝App首页“猜你喜欢”中;
  • 广告商的收入作为主要的评估依据。

对比方法

  • 手动设置竞价(Manual)
  • 上下文老虎机(Bandit)
  • Advantageous Actor-critic (A2C)
  • 连续动作控制(DDPG)
  • 分布协同多智能体竞价系统(DCMAB)

实验结果

表中为不同算法下广告商自主竞价的收益

75eeda276247be1ac608ecad01bf10f8acb4755d

表中列出了不同算法的收敛性能(假定算法的训练收敛性能在后50个数据集没有变化的情况下)。 表中每行数据显示对应算法的结果,每一列数据是本次实验中不同Agent集群的结果和广告商的总收入。研究人员对每个算法进行了4次实验并给出了平均收入和标准差。

029481ac462ffa2c9ae8022acb7bc2dde67809c2

各种算法的学习曲线与基线的对比

实验结果表明,DCMAB收敛比DDPG更稳定,验证了将所有Agent的行为输入行为-价值(action-value)函数这种建模的有效性。DCMAB和DDPG的学习速度快于A2C和老虎机,显示了基于记忆回访的梯度确定性策略的优点。

第二篇论文是关于预算约束竞价,给大家做简单介绍,感兴趣的同学可以下载全文阅读。

基于无模型强化学习的预算约束竞价

实时竞价(RTB)几乎是在线展示广告最重要的机制,每个页面视图的合理出价对良好的营销结果起着至关重要的作用。预算约束竞价是RTB机制中的典型场景,即广告商希望在有限预算下最大化获得用户印象的总价值。

但是,由于交易环境的复杂性和不稳定性,实时竞价的最优化策略往往很难实现。为解决上述问题,本文将预算约束竞价视为马尔可夫的决策过程进行处理。与之前的基于模型的工作完全不同,本文提出一种基于无模型增强学习的新型框架,顺序调节竞价参数而不是直接生成报价。

基于这个思路,通过部署深度神经网络并学习如何给出适当回报,从而引导智能体提供最佳策略;本文也设计了一个自适应贪婪策略来动态调整探索行为和进一步提高性能。通过在真实数据集上测试表明,本文提出的框架真实有效。


原文发布时间为:2018-03-8

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

版权声明:如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developerteam@list.alibaba-inc.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据文摘
使用钉钉扫一扫加入圈子
+ 订阅

官方博客
官网链接