内容流量管理的关键技术:多任务保量优化算法实践

简介: 对于新热视频的投放来说,每个视频能投放的资源是十分有限的,如何科学地分配各视频的曝光资源,增加每个视频自身的曝光从而达到播放量最大化,是一个非常值得研究的问题。本文将分享阿里文娱高级算法工程师雷航在内容流量管理上的实践,通过分析其中的关键问题,建立了新热内容曝光敏感模型,并最终给出一种曝光资源约束下的多目标优化保量框架与算法。

image.png

一 业务背景

保量策略对于视频内容来说,是一种很重要的投放策略。新热视频内容都需要增加自身的曝光资源来达到播放量最大化,而各场景(首页、频道页等)的总体资源有限且每个抽屉坑位的日曝光资源有限,因此各内容的曝光资源分配存在竞争问题。另外,不同场景之间相互独立,每个场景根据自身的目标进行效率和体验上的优化,但是场景与场景之间流量协同无法通过优化单一场景来完成。

image.png

为内容分配曝光量涉及到关于曝光和点击建模问题,以及内容的未来点击量预测问题。内容曝光、点击和播放等构成了一个复杂的非线性混沌系统,不仅取决于内容质量本身,也取决于内容更新时间、更新策略和用户点击习惯等。传统的统计预测模型无法阐述外部环境的各种干扰因素以及系统的混沌特性,即无法从机理上描述系统本质。针对此问题,我们首先通过分析新热内容的历史曝光点击日志,使用常微分方程建立了新热内容曝光敏感模型,即pv-click-ctr模型(简称P2C模型)。在P2C模型基础上,结合各场景和抽屉的曝光资源约束,给出一种曝光资源约束下的多目标优化保量框架与算法。

image.png

二 内容曝光敏感度模型

通常情况下,点击PV(click)随曝光PV增大而增大,即高曝光带来高点击。但是,内容消费者数量有限,给同一个消费者针对单一内容重复曝光并不会带来更多的点击量。这种点击“饱和”现象可从内容的历史曝光点击日志观察得到。受此现象启发,我们根据内容曝光PV和点击PV历史数据特点,建立一种能够描述内容点击量随曝光量变化趋势的常微分方程(Ordinary Differential Equation, ODE)模型,即 pv-click-ctr (P2C) 模型,整体结构如图3所示。

image.png

一个内容由于自身因素和外部环境的限制,对应的点击量存在最大值或饱和值image.png。当给定一个曝光量image.png时,存在唯一的点击量image.png和饱和度image.png。对于一个点击量image.png,饱和度image.png定义为当前点击量和饱和值的差距与饱和值的比值,即

image.png

对于任意一个内容,随着pv的增大,click饱和度减小,且单位pv带来的click增量(简称click增量)与当前click比值呈下降趋势。也就是说,click增量与饱和度存在正相关关系,可用下式表示:

image.png

其中,image.png为正相关系数。根据式(2),可以得到click随pv增长的常微分方程模型。

image.png

对式(3)分离变量后两端进行积分,可以得到

image.png

其中,image.pngimage.png分别为初始pv和click。

对于式子 (4) 中的参数image.pngimage.png,可采用最小二乘法拟合。这里首先需要对历史pv和click数据以及参数进行过滤和预处理。

(a)样本点过滤原则。分别在日历史pv和click数据序列选取最大递增子序列。

(b)参数预处理。由于点击量饱和值image.png的数量级通常很大,而相关系数image.png数量级通常很小,为了避免“大数吃小数”的现象,分别对这两个参数进行数据变换,即: image.png

(c)样本点预处理。为了避免最小二乘法在拟合参数时陷入局部最优,分别对历史样本(click值y,pv值x)进行数据变换,即:image.pngimage.png。经过参数拟合过程,可得到单一内容pv-click函数关系。进而可进行pv-click-ctr预测,这里可采用有限差分的数值解法预测,也可将数据点代入式子 (4) 预测。

三 保量模型&算法

基于上一节建立的P2C模型,本节任务是在各场景和抽屉曝光资源有限的情况下,给出每个内容近似最优的曝光量。整体方案流程如下图:

image.png

首先,基于pv-click-ctr预测的常微分方程 (ODE) 模型,针对内容池中每个内容,采用最小二乘拟合ODE中的两个参数:click饱和值image.png和click随pv的固有增长率image.png。从而给出每个内容pv-click函数关系。

第二,基于给定的优化目标和约束条件,可建立pv分配的多目标非线性优化模型。在将业务问题抽象为数学模型之前,有必要对模型中的符号进行说明,如下所示。

image.png

image.png

上述模型的优化目标包含两个:多场景vv最大化,内容池内容ctr方差最小。需要注意的是,这里的ctr方差最小是曝光公平的一种形式化描述,用以平衡“过曝光”和“欠曝光”。约束条件分别表示了场景、抽屉、坑位和内容的曝光PV约束。由于目标函数我们采用数值方法求解,使得上述优化模型无法运用传统的基于梯度的算法求解。而进化算法提供了一种解决方案,这里选取遗传算法(GA)求解。需要说明的是,GA中的适应值函数计算采用了P2C模型。

四 实验结果

我们选取多个新热内容,分别给出P2C模型的预测效果以及保量模型的离线效果。这里的评估指标是均方根误差 (RMSE) 和绝对误差百分比 (APE)。分别采用P2C模型和平滑ctr方法[1]预测新热内容的点击量。从表中可以看出P2C模型可以有效预测点击量,在RMSE方面优于平滑ctr方法。

image.png

image.png

线上实验部分,我们建立了分桶实验。基准桶采用人工策略保量;实验桶采用本文提出的策略,实验过程中关注和对比基准桶和实验桶每日投放效果(CTR方差、策略在场景上的整体CTR等)。以下给出30天和7周的保量效果数据,与人工策略结果对比发现,保量策略在CTR方差和场景整体CTR方面均有不同程度的提升。特别地,在CTR方差方面,保量策略效果非常明显,平均相对提升+50%。

image.png
image.png

五 总结 & 展望

内容保量策略旨在解决流量资源有限与需求过多之间的矛盾,为各个内容提供一种优化的曝光量建议,从而使得各场景的曝光资源能够产生更大的价值。本文针对新热内容的多场景VV保量需求,提出了一种资源约束下的保量模型和算法框架,此框架整体由预测和优化两阶段构成。我们在部分场景进行了离线测试以及分桶实验,实验结果反映了本文策略的可行性和有效性。未来需要持续探索和完善的有很多方面,如PUV保量、保量冷启动问题等。

本文章已被KDD2020录用
Hang Lei, Yin Zhao, and Longjun Cai. 2020. Multi-objective Optimization for Guaranteed Delivery in Video Service Platform. In Proceedings of the 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’20), August 23–27, 2020, Virtual Event, CA, USA. ACM, New York, NY, USA, 9 pages. https://doi.org/10.1145/3394486.3403352

参考文献
[1]Xuerui Wang, Wei Li, Ying Cui, Ruofei Zhang, and Jianchang Mao. 2011. Click through rate estimation for rare events in online advertising. In Online multimedia advertising: Techniques and technologies. IGI Global, 1–12.

目录
相关文章
|
18天前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
113 30
|
6天前
|
机器学习/深度学习 前端开发 算法
婚恋交友系统平台 相亲交友平台系统 婚恋交友系统APP 婚恋系统源码 婚恋交友平台开发流程 婚恋交友系统架构设计 婚恋交友系统前端/后端开发 婚恋交友系统匹配推荐算法优化
婚恋交友系统平台通过线上互动帮助单身男女找到合适伴侣,提供用户注册、个人资料填写、匹配推荐、实时聊天、社区互动等功能。开发流程包括需求分析、技术选型、系统架构设计、功能实现、测试优化和上线运维。匹配推荐算法优化是核心,通过用户行为数据分析和机器学习提高匹配准确性。
31 3
|
6天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
22 2
|
21天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
|
21天前
|
存储 算法
深入解析PID控制算法:从理论到实践的完整指南
前言 大家好,今天我们介绍一下经典控制理论中的PID控制算法,并着重讲解该算法的编码实现,为实现后续的倒立摆样例内容做准备。 众所周知,掌握了 PID ,就相当于进入了控制工程的大门,也能为更高阶的控制理论学习打下基础。 在很多的自动化控制领域。都会遇到PID控制算法,这种算法具有很好的控制模式,可以让系统具有很好的鲁棒性。 基本介绍 PID 深入理解 (1)闭环控制系统:讲解 PID 之前,我们先解释什么是闭环控制系统。简单说就是一个有输入有输出的系统,输入能影响输出。一般情况下,人们也称输出为反馈,因此也叫闭环反馈控制系统。比如恒温水池,输入就是加热功率,输出就是水温度;比如冷库,
163 15
|
18天前
|
算法
基于WOA鲸鱼优化的购售电收益与风险评估算法matlab仿真
本研究提出了一种基于鲸鱼优化算法(WOA)的购售电收益与风险评估算法。通过将售电公司购售电收益风险计算公式作为WOA的目标函数,经过迭代优化计算出最优购电策略。实验结果表明,在迭代次数超过10次后,风险价值收益优化值达到1715.1万元的最大值。WOA还确定了中长期市场、现货市场及可再生能源等不同市场的最优购电量,验证了算法的有效性。核心程序使用MATLAB2022a实现,通过多次迭代优化,实现了售电公司收益最大化和风险最小化的目标。
|
21天前
|
算法
通过matlab分别对比PSO,反向学习PSO,多策略改进反向学习PSO三种优化算法
本项目使用MATLAB2022A版本,对比分析了PSO、反向学习PSO及多策略改进反向学习PSO三种优化算法的性能,主要通过优化收敛曲线进行直观展示。核心代码实现了标准PSO算法流程,加入反向学习机制及多种改进策略,以提升算法跳出局部最优的能力,增强全局搜索效率。
|
18天前
|
算法
通过matlab对比遗传算法优化前后染色体的变化情况
该程序使用MATLAB2022A实现遗传算法优化染色体的过程,通过迭代选择、交叉和变异操作,提高染色体适应度,优化解的质量,同时保持种群多样性,避免局部最优。代码展示了算法的核心流程,包括适应度计算、选择、交叉、变异等步骤,并通过图表直观展示了优化前后染色体的变化情况。
|
22天前
|
算法
基于大爆炸优化算法的PID控制器参数寻优matlab仿真
本研究基于大爆炸优化算法对PID控制器参数进行寻优,并通过Matlab仿真对比优化前后PID控制效果。使用MATLAB2022a实现核心程序,展示了算法迭代过程及最优PID参数的求解。大爆炸优化算法通过模拟宇宙大爆炸和大收缩过程,在搜索空间中迭代寻找全局最优解,特别适用于PID参数优化,提升控制系统性能。
|
22天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-GRU网络的数据分类识别算法matlab仿真
本项目展示了使用MATLAB2022a实现的贝叶斯优化、CNN和GRU算法优化效果。优化前后对比显著,完整代码附带中文注释及操作视频。贝叶斯优化适用于黑盒函数,CNN用于时间序列特征提取,GRU改进了RNN的长序列处理能力。