别愁了,预测模型这样做!

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
简介: 大家都知道,小熊妹最怕下班的时候被别人长长的一声“小熊妹~~”喊住,所以,这天我在收拾包包补个妆的时候,领导又在背后喊我了图片这次接到的任务很简单,两个字:预测。建预测模型,是件很复杂的事。领导轻飘飘一句:“做个预测看看”,不光搞得运营的小伙伴们晕头转向,也大量挤占我的煲剧时间。必须不能忍。因此,今天整理了快速预测的方法,只用excel就能搞掂哦。

大部分日常工作的预测,都是基于连续几个数据,比如:


■ 有今年1-5月销量,问6月销量咋样?


有最近10周的新增用户,问第11周有多少?


有过去30天的业绩,问今天业绩如何? 这种预测有个专业名词:时间序列预测。小伙伴们看到这种不要慌,即使只有几个数,也是能建模的。首先要做的,是区分数据走势。


常见的数据走势有三种:


趋势型:连续发展的态势。


躺平型:变动较少,一条直线。


周期型:有规律的周期性波动。


直接看图,能一眼认出来是哪一种(如下图)


image.png



领导希望预测2021年6月的用户量,该如何做呢?


 第一步:观察形态。


做出该数据的折线图,可见这是典型的趋势型(增长趋势),那么就用趋势性预测方法吧。 


第二步:处理数据。


做新的折线图,做出该图趋势线。


image.png


第三步:选择形状。


选择合适的趋势线形状,显示公式与R平方。


image.png


这一步是很多小伙伴们最怕的一步,因为不懂这些模型和参数呀,做错了咋办。不用怕!这种几个数的短期预测,本来就不咋准。特别是,很多业务数据,比如用户量、销售额,都是跟业务努力程度挂钩的,本身就不是数据能量化预测的,所以尽管放心大胆的做。


这里只要掌握几个基本原则就行了:


1、选取的趋势线,和实际走势接近(不要实际往上走,趋势线却往下走)


2、R平方数值尽量接近1(习惯上不小于0.6) 如上图所示,如果是选择多项还可以通过调整项数,提高趋势线的R平方,让趋势线更接近实际走势形状(如下图)


image.png


第四步,预测结果。


把预测模型写进单元格,预测结果。公式出来以后,做一些小调整,直接复制出来就好了。这里选择了多项,参数为2的情况,(如下图)


image.png


这里简单解释一下公式公式里Y就是要预测的用户量数据(因变量)X是自变量,就是时间,X平方就是时间*时间,对应关系如下:


image.png


其实,趋势线拟合的原理,就是假设数据随着时间变化而变化,因此因变量是数据指标,而自变量就是时间,以及时间的各种形态,比如时间的平方、对数、指数等等。


 第五步,预测未来情况。


这里有10个数据,要预测下个月的,就是第11个数据,时间是11,时间平方是121,代入公式,就能算出预测值(如下图)


image.png


这样就完成啦!多简单。 勤快的小伙伴,在实验这个方法的时候,会发现:很有可能好几种趋势线预测出来的结果,R平方都是接近1的,这时候该怎么选呢?


如果一定要纠结这个问题(我强烈建议你不要纠结这个,我们又不专业,让专业做算法的小哥哥纠结去)可以计算平均平方差(MSE),哪个方法的MSE数值小,就用哪个(如下图)


image.png


明显,2次拟合的MSE值更小,就用这个啦。到这里,就全部做完啦。多简单。 这种趋势拟合(又叫趋势外推),是解决趋势型预测的非常快捷的方法。


优点,包括:1、需要的数据少,几个数也能预测2、能模拟曲线走势,不会出现方向性错误3、是个模型,充分满足领导对建模的憧憬

缺点也是很明显的,领导一句话就能把它打败:“那你所说,这预测的134万用户,到底是哪些渠道做出来的?”


很遗憾,完全说不了。因为模型只是模拟了曲线的走势,并不能解释走势是怎么来的。用数据分析的专业术语,叫:业务可解释程度差 这种可解释性差,有时候会引发很严重的问题。比如小伙伴们看回上一张图,虽然2次拟合的MSE值更小,但是这个预测结果明显有问题:本来是连续10个月上涨,这个月居然变成下跌了!

很有可能引发领导连珠炮似的问题:


1、为什么会下跌?


2、是新增少还是流失多?


3、运营不给力还是产品体验差?


4、需要短期拉动还是长期拐点到了?


 更加遗憾的是,模型本身更解释不了这些。所以聪(jiao)明(hua)的小伙伴,会果断放弃二次拟合的结果,用线性拟合的结果。因为这样更符合领导预期(少被人喷)。 那如果领导一定要解释到底新增的是从哪些渠道来的。该怎么办呢?这时候可以利用杜邦分析法,对用户量指标做拆解(如下图)


image.png


拆解完以后,我们一个个去找对应渠道负责的同学问:


■ 亲,这个A渠道,你们6月份还做不做?


亲,如果做A渠道的话,你们准备投多少?


亲,A渠道过去转化率为x%,你们准备做优化不? 


问了一堆问题以后,把收集到的信息,做一张汇总表,把下个月为什么是这么多人,解释得明明白白(如下图)


image.png


这就是大名鼎鼎的业务预测模型,这种预测模型的可解释程度就高多了,可以明明白白地讲清楚:


1、增长来自哪里


2、为什么增长这么多


3、如果不达标,还能做什么 


但是这样的缺点也是很明显的:


1、它没有让人看不懂的算法,显得不厉害


2、需要运营的大量输入,而运营不见得想说话


3、即使运营想说,也有可能在拍脑袋,很有可能拍得不准 


所以呢,世上没有两全法,只能看情况做预测咯。以上就是今天小熊妹整理的知识点。还差两个:躺平型与季节型,火锅已经点好了,下次再写。小伙伴们记得点赞+在看+转发,鼓励下新人哦,谢谢你啦~

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 运维 计算机视觉
TimesNet:时间序列预测的最新模型
2023年4月发表了一个新的模型,它在时间序列分析的多个任务中实现了最先进的结果,如预测、imputation、分类和异常检测:TimesNet。
807 0
|
6月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化(下)
R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化(上)
R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化
|
6月前
|
机器学习/深度学习 数据可视化
R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证
R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证
|
6月前
|
机器学习/深度学习 算法 数据挖掘
R语言气象模型集成预报:神经网络、回归、svm、决策树用环流因子预测降雨降水数据
R语言气象模型集成预报:神经网络、回归、svm、决策树用环流因子预测降雨降水数据
|
6月前
|
机器学习/深度学习 数据可视化
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析(上)
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
|
6月前
|
机器学习/深度学习 数据可视化 算法
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析(下)
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
|
6月前
|
存储 机器学习/深度学习 数据采集
基于LightGBM的肺癌分类模型:从预测到个体化治疗
基于LightGBM的肺癌分类模型:从预测到个体化治疗
268 1
|
6月前
|
机器学习/深度学习 算法 数据可视化
探索可解释性机器学习:Breakdown带你了解心脏病随机森林的预测关键
探索可解释性机器学习:Breakdown带你了解心脏病随机森林的预测关键
183 0
探索可解释性机器学习:Breakdown带你了解心脏病随机森林的预测关键