从0到1,轻松构建数据预测模型

本文涉及的产品
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 之前和大家分享了趋势型预测方法,很多小伙伴想看躺平型与周期型预测,今天他们来了。 首先回顾一下,常见的数据走势有三种:趋势型:连续发展的态势。躺平型:变动较少,一条直线。周期型:有规律的周期性波动。

直接看图,能一眼认出来是哪一种(如下图)


image.png


认清楚走势以后,就能选择对应的模型啦。


先看躺平型的例子。举例:某门店业绩数据如下图所示,请预测2021年4月的业绩:



image.png


看到这张图,很多小伙伴会直呼:这个看起来,和100000的线很像呀,就是围绕100000的线在波动,我能直接按100000去预测吗?


答:当然可以呀。躺平型只要躺的够“平”,完全可以用平均值来做预测值。还有专门的方法叫:移动平均值法,即把近N期的数据平均值,作为预测值。


不过这样做有个问题:看起来不够高大上,领导们又说:“有没有大数据算法来搞搞……”哎,就是总有人迷信这个,那就弄个看起来复杂一点的:用指数平滑法来预测。


数平滑法预测数据模型


用指数平滑法需要调用excel的分析工具,可以点击上方的:文件→选项,在加载项中选择:分析工具箱


image.png



设置好之后,就能在上方:数据 栏目,找到数据分析按钮。点下去,就能看到各种常见的分析工具了。


第一步:做好数据处理(如下图),选择指数平滑方法


image.png


第二步:选择输入区域,设好阻尼系数


image.png


阻尼系数是啥意思?阻尼系数是一个0到1之间数字,可以简单理解成:


阻尼越大,真实值权重越小,即历史情况参照意义越小


阻尼越小,真实值权重越大,即历史情况参照意义越大


不过大家完全不用纠结这个,完全可以设好几个阻尼系数,预测出来以后,看哪个预测的MSE值越小,就信哪个!简单迅速才能下班早!(关于MSE计算方法参见上一篇)


第三步:做好几个预测值,然后看哪个MSE小。比如设阻尼系数为0.95\0.9\0.8\0.7,分别计算预测数据及MSE值如下:


image.png


看图说话,阻尼系数0.8的时候MSE值最小,就它了,搞掂!


实例


再看个季节性预测的例子。举例,某线上店铺,销售业绩走势如下图(单位:万元)如何对2021年第一季度做预测呢?


image.png


显然,店铺业绩受双11、双12大促影响明显,4季度是旺季。这种走势也不能直接用趋势线来模拟,模拟出的趋势线R平方只有0.0几,完全不能用。但是,可以通过一个小技巧,把这个数据改造成可以用趋势线模拟的形式。


第一步:先对数据做改造。改造方法如下图,通过数据处理,模拟出季节变化趋势,这种方法叫:季节多元回归。


image.png


第二步:进行回归分析。既然叫季节多元回归,自然要调用回归分析,在同样的路径:数据→数据分析里,找到回归分析方法,然后输入参数:



image.png


第三步:解读分析数据。这里又是让人脑瓜子嗡嗡的时刻。不过不要怕,对大部分非数据分析专业的小伙伴,只要看几个关键数字就好了.


image.png


从结果上看:


1、R平方0.93,很好


2、各个参数的P值,除了X1以外都很小,很好

所以模型可用。还可以把X1:时间这个变量去掉。时间变量代表了长期发展趋势,本身这个数据几个周期也没有很大长期增长,所以去掉也是情理之中的。


有小伙伴可能好奇,做出来的模型为啥系数都是负的,真的没问题吗。没有,注意这个数据本身就是Q4数值很大,那Q1、Q2、Q3的参数肯定就是负的了。


这样就做完啦。想预测下个季度,可以增加一行:2021年1季度,对应的参数,t是21,Q1=1,Q2,Q3都是0,然后代入公式即可。这里留给读者们自己试一下。


总结


以上就是今天整理的简单预测方法。其实真只有几个数字要预测的话,即使丢给专业的算法工程师,他也是这么算的。我就亲眼看见隔壁算法组小哥哥,打开excel拖了几下,然后回个邮件给商品运营组的领导,说:“这是大数据方法预测的,blabla……”那一刻我整个人都震惊了,点赞、收藏、转发一键三连!


可能看完后,还有小伙伴会疑惑:领导们那么喜欢“建模”,他们真的不懂吗。其实这一点我还挺幸运的,因为我之前的领导就是接地气的陈老师,他会把客户的各种奇葩想法挡在门外,所以很少被不懂行的领导折腾。现在在互联网某厂,有专门的算法组处理这些问题,也很少被纠结了。


从我接触的客户/同事来看,还真的是:懂行的不迷信,迷信的不懂行。所以为了早点下班,用一些看似高大上实则轻松快捷的方法还是很有必要的。混过关就好。


小伙伴们自己掌握方法以后,也不用再纠结啦。遇到这些小问题打开excel拖一拖,我们这些查数姑们也能早点下班呢。毕竟拒绝内卷,从我做起,大家一起努力哦。



相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
162 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
3月前
|
机器学习/深度学习 人工智能 测试技术
VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用图像信息进行时间序列预测
构建预训练时间序列模型的主要挑战在于获取高质量、多样化的时间序列数据。目前有两种方法:迁移学习LLM(如GPT-4或Llama)和从零训练。尽管迁移学习可行,但效果有限;从零训练则依赖大量数据,如MOIRAI、TimesFM和TTM等模型所示。为解决这一难题,研究人员提出利用图像数据进行时间序列预测。
312 10
VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用图像信息进行时间序列预测
|
3月前
|
机器学习/深度学习 算法 数据可视化
机器学习的核心功能:分类、回归、聚类与降维
机器学习领域的基本功能类型通常按照学习模式、预测目标和算法适用性来分类。这些类型包括监督学习、无监督学习、半监督学习和强化学习。
71 0
|
6月前
|
机器学习/深度学习 存储 数据可视化
谷歌的时间序列预测的基础模型TimesFM详解和对比测试
在本文中,我们将介绍模型架构、训练,并进行实际预测案例研究。将对TimesFM的预测能力进行分析,并将该模型与统计和机器学习模型进行对比。
187 2
|
5月前
|
计算机视觉
利用各类回归模型,对数据集进行建模
【8月更文挑战第8天】利用各类回归模型,对数据集进行建模。
50 4
|
7月前
|
机器学习/深度学习 数据采集 人工智能
特征工程对ML/DL至关重要,涉及数据清洗、转换和特征选择,以提升模型预测和泛化能力。
【6月更文挑战第28天】特征工程对ML/DL至关重要,涉及数据清洗、转换和特征选择,以提升模型预测和泛化能力。它改善数据质量,浓缩关键信息,优化性能,增强解释性。特征选择,如过滤法、RFE、嵌入式和包裹式方法,是关键步骤,常需迭代和结合业务知识。自动化工具如AutoML简化了这一过程。
62 0
|
8月前
|
机器学习/深度学习 人工智能
【机器学习】有哪些指标,可以检查回归模型是否良好地拟合了数据?
【5月更文挑战第16天】【机器学习】有哪些指标,可以检查回归模型是否良好地拟合了数据?
时间序列分析实战(四):Holt-Winters建模及预测
时间序列分析实战(四):Holt-Winters建模及预测
|
8月前
|
数据可视化 vr&ar Python
时间序列分析技巧(二):ARIMA模型建模步骤总结
时间序列分析技巧(二):ARIMA模型建模步骤总结
|
8月前
|
数据可视化
R语言KNN模型分类信贷用户信用等级数据参数调优和预测可视化|数据分享
R语言KNN模型分类信贷用户信用等级数据参数调优和预测可视化|数据分享