业务背景
移动互联网APP产品在面对新用户获取环节,普遍选择渠道推广模式。在推广过程中,为了保证用户在app下载、app安装、app激活到app活跃的高转化率,需要实时监控各推广渠道的质量。较为理想状态是投入产出比为:大于等于1。
为解决以上业务需求,我们决定搭建一套投放预测系统。该系统可预测某渠道在未来一段时间后的收益,用该预测收益值与实际投入(获客成本)做比值,即为投入产出预测比值指标。该预测指标可用来衡量渠道质量,最终由系统自动化判定当日哪些渠道可“投”,哪些渠道“停止”投放。
理论基础
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。从高层次来看,是我们认为所有的特定组数据是相关的,符合一定的分布规律的。回归就是来确定这个曲线参数从而确定这个曲线(函数),继而可以根据确定的函数来计算(预测)新的数据的结果。
解决回归问题的典型模型为线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当新的数据出现时就能够预测出一个值。
数学表达为:
定义:给定数据集D={(x1, y1), (x2, y2), ... },从该数据集中学习得到一个线性模型,这个模型尽可能准确地反应x(i)和y(i)的对应关系。这里的线性模型就是属性(x)的线性组合的函数,可表示为:
向量表示为:
其中,w=(w1; w2;w3; ..., wd)。这里w表示“权重”,即为对应属性在预测结果的权重值,权重值越大,对于结果影响越大。
阿里云机器学习PAI平台应用
机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。通过使用Maxcompute与PAI平台的搭配可以很好的解决大数据计算与模型服务的应用场景。
投放预测本质上是一个回归问题,影响渠道未来收益值结果的因素有很多。现针对投放用户各类历史行为特征,训练出一个线性回归预测模型。该模型构建了一个海量数据集D,经模型运行后得到各行为属性及其权重值。如下图所示:
阿里云PAI平台结果截图
将上述行为属性、属性权重代入f(x)函数,即可得到新输入的预测值。
模型效果分析
经测试,综合预测准确率为91%,其中实际值与预测值对比如下: