营销是一场战争or一场游戏?——深谈预测技术的行业应用与挑战-阿里云开发者社区

开发者社区> 大数据> 正文

营销是一场战争or一场游戏?——深谈预测技术的行业应用与挑战

简介: 云栖TechDay活动第二十二期中,赵强带来了题为《预测技术的行业应用与挑战》的分享,他主要与大家分享了数据挖掘与预测技术的分析,并结合具体案例来讲述市场营销领域中预测技术的具体应用和使用经验。

云栖TechDay活动第二十二期中,赵强带来了题为《预测技术的行业应用与挑战》的分享,他主要与大家分享了数据挖掘与预测技术的分析,并结合具体案例来讲述市场营销领域中预测技术的具体应用和使用经验。

以下内容是根据PPT和现场分享整理而成。


大数据领域特别之处在于:它的行业发展用在走在教育之前,应用是学不到的。我经常问我的MBA学生,营销是一场战争还是一场游戏?这是两个截然不同的观念,战争意味着你死我活;而游戏仅仅是为了娱乐,通常的答案是两派都有。对于我而言,营销是战争,或者说数据挖掘或者模型在营销领域运用时,其实相当于帮助企业作战,因此这里存在一个纸上谈兵的问题,你可以吧排兵布阵讲的头头是道,但是一旦进入实战领域,完全行不通。这是因为你的业务目标与模型不匹配,因为你缺乏对行业的足够理解。

1e02f31373dbfbbb2c9bd016d324e8f1b3518884

首先需要解决3W问题:第一是what,也就是发生了什么。报表类是用来分析、解决what问题的,清楚发生了什么;接下来是战略分析的洞察分析,洞察分析是通过数据发现人工不能告诉我的事情,通过数据猜测用户将会做什么,进而解决了what will happen问题。它的原因是why,再上面是so What,通过模型预测会发生什么,会改变什么。如同战争一样,预测到敌军的行为,立即做出相应的调整,进而控制战场。

436da01d5bb84e6096ba0fd22a4ee83010a0f42f

数据挖掘预测技术或大数据技术可以应用于很多场景中国,如营销组合,在营销组合中产品/服务开发、价格弹性与需求预测、渠道(如存储位置与媒体有效优化)以及促销优化都涉及到了数据挖掘。在客户关系管理中,可以利用数据挖掘发现潜在新客户的转化、避免高风险客户、保留有利可图的客户、进行交叉销售、向上销售。

d9a5576b0b889649cd51d5121fb34828c2fedc45

在营销优化的分析中,我们会对某一件事情做分析,但不可能同时分析整个系统,这是不可能完成的任务。在整个营销领域的链条中,不同领域的客户是不同的,例如APP端客户、Web端客户和实体端客户,对不同的商品和服务,包括促销的态度也是不同的,因此整个系统之间是互动的,因此我们常做的分析是针对单个项目ROI进行分析,并不是分析整个相互之间的影响。

ROI战略

 

886f2106bd6d8564ace12388c6ba2fa6613e0122

但是在多渠道的营销场景下,某一个行为最终产生的ROI我们其实是不清楚的,这是因为我们把钱投进去之后,并不知道中间产生什么样的关联关系,从而无法知道投资是否正确,这是目前营销中碰到的一个巨大问题。为了解决该问题,通常在营销领域通过投资回报率来控制投资总额,比如我不清楚投资在哪个方向是比较优化,但至少清楚了投出去一块钱带来的最终回报是多少,这个是可以计算的。

目前,北美的国际性企业包括世界500强企业,在营销领域对投资回报率的关注在逐步增长。调查显示:62%的营销管表示企业对ROI有硬性要求;65%的CMO表示每年都能感受到CEO对ROI的指标要求。这是应为营销通常在一个企业内是一个成本很高的部分,所以它必须知道资金投资出去会产生多少回报。

466dbd8842e198b26cdbb6568e10a24537316d3e

这里之所以多次提到ROI,是因为它是营销领域进行分析的最终指标之一。ROI 回答了投资在某营销组合上的平均回报是多少;而ROMI回答增量投资的边际投资回报率。平均回报率高还是边际回报率高是根据不同情况来决定的,例如对一个股票已有投资的情况下,就存在边际效应,从100万、500万、1000万再继续增加,多增加的100万产生的投资回报率跟这100万放在其他地方是完全不同的,你可能更远将100万投在低的ROI,但是它的边际效应比较高。

ec7d0f065c7103b2209c76a9030120eeabb48b44

所以我们在营销的时候,为什么要计算ROI和边际效应呢?因为营销有很多对象,钱可以投在广告、APP、WEB上,要知道在每个渠道、每个项目上投多少钱,就要知道ROI和边际效应。用这个模型来计算如何将钱投资在营销的各个方面,才能够产生最大的回报,这个是CMO关心的。多元线性方程,是营销组合模型里面最早期的模型,在统计里面叫做线性回归。模型的数据来源于媒体数据,移动社交网络里一些竞争对手的数据,季节数据,宏观经济、人口、市场,也就是特征变量。通过这个模型,可以得知β,就是对整体销售产生的贡献度。所以一旦模型建立以后,可以预测若原先广告投入是500万,现在增加100万,看看销售能力能加多少。营销组合模型本身已经发展了很多年,有很多形态,不光是最简单的线性回归。还有如何用一个预测分析找到最佳的目标客户,或建立一个预测模型来预测谁最有可能第一个来上我的课,如何采样等,这都是在营销界里面经常要做的事。

使用预测分析,找到最佳的目标客户

ceb21b93af63e5b277b880cd2e6a438d2f2e8643

常见的预测模型有有监督和无监督模式。无监督里经常会用到决策树,有监督模型用的比较多,有线性回归,逻辑回归,这二者主要是有线性假设;也有生存模型,神经网络等。这里需要说明,数据挖掘模型包括统计其实是两种不同的学科。你可以学习很多模型,但是要掌握它很难,这是行业领域的一个问题。

f967e03fe95af3a5a73bc6a61036a6f4a552febb

预测一个人的一种倾向性,可能是一种转化率,这是营销经常做的一个预测,叫通用线性回归,变量可以是二元,可以是连续变量,那么G就是广义线性模型的link function,即不同的function。

256f19910b01bd38c3b89513ca0e7b3fca8dca67

举个例子,上图用SAS写的程序就3行,最后再加一个Run命令。很多学生就觉得简单。建模很容易,因为是线性回归;假设是二元,在统计里面可以用概率解释,学生可不可能来听课,这是一个倾向性。倾向性从0到1估值, 0就是完全不可能,1是完全可能。

1113fc90656c07238296d37ec019b4162a3b99cf

根据这个可能性把所有的顾客等分成10组,可能性越大,组合号码越小。如果通过一个预测模型,知道客户有98%的可能性来买东西,阿里的网上推荐系统就会推荐给其最可能买的商品。这又回到了ROI的问题,营销就是通过这种方式来提高ROI,即投资回报,这也是最早期的使用方式。

aaa3bce09d3b5e2bfb115c28b5dad4549665819b

将这个已有的模型应用到加拿大的一家企业,该企业的目的很简单,即找到一帮客户,预测谁最有可能因为消费100元返20元的促销,进店买东西。于是按照这个方式建模,这是业务需求。没发促销的是控制组,发了的是对照组。有一些客户,不因为促销自然就会消费,如果发了促销,他进店的比例可能增加,那么增加的部分就是促销的效果。

b72bedca0066e826def4711b4bf6d951cbf53c9a

所以可以看到这两组,收到促销的整体销售是118块钱,没有收到促销的是107,差值有10块钱。为什么讲是平均5块钱的增长消费呢?因为另外5.74美元是促销本身带来的增量,它要计算ROI。

3a182b49436c70793407c7b2813dbe7b760d8091

再比如,现在有两种产品做促销。A产品的10等分的倾向性从高到低,最可能购买产品的顾客是将近20%,产品B最高的可能性只有1.4%。站在管理者的角度,考虑一下业务需求,那么应该选择哪个产品做促销?这两者对建模的挑战不一样,如果说一个产品非常好卖,建模之后,能100%准确判断出谁肯定会买,谁肯定不会买,但这个信息对于营销部门毫无意义。但是另一个产品就不一样了,因为它离你100%预测会买还很远,那么主要挑战是增加其销售。所以尽管看起来都是预测模型,产品的特性不同,业务不同,对建模的要求也不同。

高级预测分析技术以提高促销的投资回报率

1ecc48a9f7be1942d5e0d468004e07debe99b4a3

上面已经描述了投资回报率的计算方法,影响因素。营销里面增加的销售来源于促销和非促销两组的区别,也就是说,当你发了一个促销之后,来的人非常多,不发的时候没有人,这个时候的投资回报率最高,增加的部分就是ROI的驱动。所以最开始只是去猜测R值,当把控制组做到100%,也就是增加部分是0的时候,ROI也是0,没有任何回报。如果要增加ROI,就得增加这个差值,那建模时就要把R压下去,等差值到了最大,投资回报率就最高。这个模型跟普通的统计回归模型有所不同。

18dd8cbd042192f562e7ce0b8deeaaa413a00037

那么为什么会产生这种不同呢?如果用原来的倾向性模型来做,把它分成从2.3% 到18%的10组,这时候肯定找最可能的人。找到这个人并给他促销,结果增加了1.4,由于投的钱很多,投资回报率是-0.71;当投到第5组和第6组的时候,总体回报率并不高,但是它增加的回报率有5.3%,4.2%。投资回报率为正。如果光去猜买不买,就不知道投了广告或促销之后,真正增加的销售是多少。

164e3d2e72fe264a0de9f46f34533e6f392a88e5

建模最重要的几个目的是:转换率的增量、ROI和总体营销转化率。很多时候,在营销界,建模并不能改变人的行为。比如若不建模,大概全中国会有1%的人会买Iphone,建模之后还是1%。而现在一定要建出一个模,虽然只是在杭州市或者是上海市做营销,但是可以把全国买Iphone的比例从1%增加到1.01%,这就是我建模提高ROI很重要的一个要求。

e8e16d10183a1d634b1b464575e85bb55b71dfe5

几次迭代之后,现在已经找到了通用性的朴素贝叶斯模型。因为它能最好地解决非线性问题。现在用朴素贝叶斯来做模型,效果非常好,也非常稳定。

我一直在推广这个模型,它的投资回报率相当高。但是用时间长之后,就会发现顾客的行为开始改变,这个企业的总体顾客行为变了。因为长期使用的话,顾客就会养成习惯,没有好处就不会来。这就造成企业长期ROI的下降。不过短期之内还是有效果的。

高级预测分析技术服务于 CRM & Loyalty Marketing

83fc970c95b13d966d492f9ca777d7422d3aa45e

另外一个领域就是顾客管理和忠诚度,也需要使用预测技术。在这里把顾客的“生命”画成四个阶段。首先,顾客进来以后,你的主要工作就是要获取顾客。其次,因为他的关系跟你慢慢建立起来,在其成长过程主要进行交叉销售和向上销售。比如说一个顾客买了水,交叉销售就是希望再卖给他一块蛋糕,交叉销售有助于顾客增加产品线,从而跟你产生更强的关系。向上销售是指,顾客进来买水,嫌水便宜,要买高档的水,也就是消费升级。这种方式使这种关系获得成长,从而达到第三个阶段,成熟期;把广告和促销都投到成熟的顾客身上是不恰当的。最后,过了成熟期,顾客很自然地就要离开,这就要进行挽留。所以不同阶段做不同的事。

52c73ac336d7680665ac411368bdc8426cd322cb

上面所讲的生存模型用于什么时候死亡,同样可以预测顾客什么时候离开,这个模型最常被用于预测顾客会不会离开企业。可以根据顾客不同特征的变量做一个预测,同样将他的离开倾向性从高到低10等分,发现上面几组更有可能会离开,最后这一组几乎不可能会离开。营销部门拿到建好的模型,为了挽留,会给哪一组进行促销?第10组是最不可能离开的,但是如果建模之后,发现100%都会离开,这个模型就没有意义,没有投资回报率;如果100%确定不离开,也没有投资回报率。在这个情况下,你做的预测模型很有可能跟实际业务需求发生错乱。

以一个故事为例,银行有一种促销是客户关系管理,即银行免费的账户有限制,超过多少交易就要多收费,高端账户本来就需要花钱。那么银行就发现有很多顾客的免费账户超过了允许的范围,就会扣钱;然后银行就想做一个促销,给这类客户发了信息,让其消费升级到高端一点的账户,相比之下还便宜,这样顾客觉得很关心自己,离开的可能性就下降。然而做了这个促销之后发现,离开率比不做促销还高,也就是说这个模型起了反作用。

2e7dfed6838daea247ab318350d81fce35b7f134

这又是什么原因呢?其实可以把人简单地分成四种:第一种叫做Sleeper,他们根本不清楚自己现在的状况,也没考虑是不是要离开,然后你发了一封信告诉他应该考虑留下,结果他被唤醒,就会去考虑。所以最后流失的,很多就是这一部分。第二种是Loyalist,就是特别忠诚的顾客,有没有促销都不会离开。第三种Hater是100%会离开的,发了促销也没用。最后一种摇摆者,发与不发促销区别很大,可能他这个时候已经在犹豫,但没有决定,这时候挽留一下他就会留下了。所以要在这个基础上建模,抓住这部分人,而不是去算总体流失率。这个概念有点像投资的边际效应,营销的很多模型里都要用到。

高级预测分析技术服务于定价优化

cd6bda10386fd2b5fc71c3676a8e1e001599c8bc

定价是营销的一种,在营销里面用途非常广泛,基本分成三种不同的用途:第一种主要是战略上,如何去定价;价格跟品牌形象有关系,所以定价有一定的策略战略。第二种是价格弹性,就是某些产品的价格不影响销售;产品不是弹性的,那价格定高点低点就无所谓,如果知道价格非常弹性,就说明其销售跟价格有很大关系,那定价就要小心一点。最终企业会想知道,有一些预测模型之后,如何定价才能够产生最大的总体企业回报,那么要有第三种,沙盘推演。它在营销界里面用的比较多。

接下来看一下做定价分析的时候通常用的模型,时间序列主要针对未来发生的事,根据以前变化的形态来做出预测。那跟我们早期讲的回归预测不是一个概念,当然最早出来的时间序列没有特征变量,现在的模型里面增加了。我有一个同学是教统计的教授,他说能够用特征变量做预测,就不要用时间序列。但是我们主要根据时间序列来分析未来的销售额、销售量有多大,可以根据上周的销售量来预测下周的销售量。

588d7518bf7f4c40472c3675a6efb221bdaa21e4

预测的过程当中,主要分成四种:第一个是产品的销售趋势。如果这个产品的趋势是下降的,且量还不大,就要考虑换一个产品。二是季节性,不同的季节性,营销的措施是不一样的。三是异动,就是当打折的时候会发生什么,当天气出现什么问题的时候会发生什么,当阿里的机器down掉一个小时会发生什么,就是外在的因素干扰销售的变化。第四就是循环,产品经常会发生循环,当你高的时候它会慢慢下降,然后升高,又下降,这是时间序列里面常见的一个因素。如果是短期的循环,那在促销定价某产品的时候要小心一点,不要太狠;如果今天太狠,价格弹性还比较好,顾客一下会买很多,然后一两个星期就不来了。如果一年循环一次,那又是另外一个说法。

06dba5b728af9aa0d5cfccec60b6bf23663ef1a8

但是在时间序列的模型应用里面又出现了预测的一个挑战,通常你做一个产品的销售与价格,可以一个一个模型、一个一个产品做,但是面对很多产品你不可能一起做。第一很花时间;第二会造成营销部门只盯着一两个产品看,因为人类的认知是有局限的,几乎不可能同时去观察很多东西。不过产品与产品之间是有一定关系的,这个关系有的时候还非常强烈,我们叫做交叉弹性关系。它有一个定义,当产品的价格下降的时候,打折之后会造成另外一种产品的销售变化。当你打折了A产品,B产品的销售上去的时候,我们通常说这两种商品有互补性。但是如果A产品打折,A产品的销量上去了之后,B产品下降了,这种交叉弹性叫做替补性。就是我同时不需要两样东西。因此,这就出现了问题,预测A产品的时候,很准确的出现A产品打多少折的时候会增加多少销售,但是没有看到B;结果下个礼拜再预测A的时候,也有可能C产品打折,C对A有影响,然后A的销售量就不符合之前的预测了。实际上A产品被其他的产品影响了,因为A产品跟其他产品都有关联。

那么这样的关联对一个营销部门,定价部门来讲有什么意义呢?这说明打折的时候有优化空间,不一定要盯着某一个产品,或许不同的产品组合打折比较好。当有这个需求的时候,就对建模师提出了要求,你能不能同时给我算,当我对A产品打折的时候,同时有哪些产品会受到影响,建这样的模型真的很难,我到现在为止还在做那个研究。但是在统计的概念里面,它是一种概率的统计模型,叫合性,其主要做法是把所有时间序列的模型放在一起,每一个模型跟别的产品之间是有关联的,同时来估算这个模型,而不是一次做一个。这个对机器的运行性能要求相当高,包括CPU,GPU。但是当模型出来时,就会告诉你,对A产品打折之后,B产品会发生什么,A产品又发生什么。当我把所有的产品加起来,它的销售情况加起来,总销售是多少。因此,在这之前无法通过单个模型进行计算,需要一个总体的模型。

cbdba620e6cda9432cf59053beeb43c7f19be30c

来看一下案例,例如某一个产品打了10%折扣,可以拿到550K销售,打折30%,有180K销售,这是沙盘里面的一种情况。觉得这个模型价格弹性度不是那么好,就不打折看看第二种情况,一般的营销部门说不打折的销售肯定不如打折的。不打折Y产品的销售量从550掉到了500,就是丢了50。因为不打折的价格高,所以销售额下去了。但是由于Y产品不打折之后,X1产品的销售增加了20个,那么总体下来,不打折时Y产品总的销售额是150million,相比较之前的147,多了很多。也就是说不打折产生的效果比打折好,这就是这个模型带来的沙盘推演非常好的案例。

所有的故事都想表明一个态度,即为了一个业务去建模,这个业务以及需求的复杂可能超出了想象。在未来,当一个好的建模师很有经验的时候,就是一个为企业提供解决方案的人,不光要对业务要求很熟悉,还要对建模所产生的结果很熟悉,这个才是真正的建模师。如果大家有志从事这个行业,除了要学习建模的技术之外,还要努力了解业务。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章