数据挖掘系列(4)_Excel的数据挖掘插件_预测

简介: 使用预测向导可以预测时序中的值。 预测向导使用 Microsoft 时序算法,该算法是一个用于预测连续列(例如产品销售)的回归算法。

38efe11868a641f8b3ae18de6186d385.png使用预测向导可以预测时序中的值。 预测向导使用 Microsoft 时序算法,该算法是一个用于预测连续列(例如产品销售)的回归算法。


每个预测模型必须包含一个事例序列,即区分序列中不同点的列。 例如,使用历史数据来预测几个月中的销售情况,则日期列为事例序列。


其他 Microsoft 算法创建依靠给定输入列来预测可预测列的模型(如决策树模型)。 但时序模型的预测则仅以算法在创建模型时从原始数据集派生的趋势为基础。


一、以票房数据进行预测



以50部电影信息作为预测:

注:在进行预测之前需要将SHOWTIME列进行排序

0749fd4543c4447d81ce02576186861a.png0676f4aa022f422096bf0c84a31b7669.png1e67d38bc9e0494fb3f8ceef59bcd9d7.png8964550f40f94786bd985054bea11508.png

这里由于每部电影的时间有一定的间隔,因此预测的精确性会较低。

cd8f80d71ccd437f84bf73d91597d261.png


二、时间戳-文本转换为数值



如果进行预测的时候,在时间戳中没有找到对于时间的参数,可能原因是没有将数据转换为数值类型,而是以文本方式存储。


正确的做法是将时间变成数字:就是点击下图当中的转换为数字。

ebd42d1d59b74e70a1338ab1164d23cf.png


三、以NBA每场得分进行预测



以如下数据作为预测:

下面的数据是将700多条的NBA数据先转换成数据透视表,然后对每场得分(pointsPg)求平均值,得到的就是每年每场得分的平均值,根据已知的数据预测未来的数据。

35a1ff80cd8e40b2b6f0fc8f08eb034e.png1abe8eae7a0b4d7d8008daab6d5f9484.png


四、创建挖掘结构



6e83631f635c4315b1c002d828f9caa7.png


按默认步骤创建一个预测模型。

如果在创建挖掘结构的时候,没有指定KEY TIME,则使用算法的时候会报错:


89b10fc09e144ed6b9a24e98761a80eb.png

因此将YEAR当做KEY TIME:


3df6aa4479074a19b969e7d9d51efc1f.png

之后按照步骤进行创建。


五、管理挖掘结构



40ac4e8e48ee4f03aae5e443762f334f.png


六、将模型添加到结构



创建好预测模型之后,需要将模型添加到结构

5703d304e4d549ed831afec4a57b3f4d.png72a13e68fd7947d59ea3f529a3b87d32.png

06acac5243264f0b81a2c3cbba0b0381.png


  1. 选择时序算法。

Microsoft 时序算法结合使用 ARIMA 分析与基于决策树的线性回归来分析与时间相关的数据,例如,月销售额数据或年利润。该算法发现的模式可用于预测未来时间步长的值。该算法可自定义为使用决策树方法或 ARIMA,或同时使用两者。


beae0ea026fb426f9bc48845c612d8fc.png

6202f01774d14dbcb92d815c20bfe6e0.png1610a840074e48ef9c19d1e310262f6c.png

2. 选择逻辑回归算法

Microsoft 逻辑回归算法是一种适合回归建模的回归算法。该算法是 Microsoft 神经网络算法的一种,是通过消除隐藏层获得的。该算法支持对离散属性和连续属性进行预测。

这次选择没有经过整理的NBA原始数据:

969f5d1d6e324b3cb20da19933f8ebeb.png

9ca5881c8532414a9307eee9893c2758.png

6303943a33504420ad9f87614f853659.pngf69efef813cf49dfb64dceb42d8ab647.png


七、以新冠疫情数据进行预测



部分数据如下:

855b59ab045a4ce69e978e2e87bb451d.png在这里插入图片描述

d330af4a65884543b791c8bd0bd997cf.png9a3296d08d6a466181709780d1734746.pngimage.png

此外,还可以显示历史预测信息和偏差:


758f8bcdff564ce8862951ec092fbd42.png



相关文章
|
6月前
|
前端开发 Shell API
强大的类excel插件,handsontable的简单应用
强大的类excel插件,handsontable的简单应用
255 1
|
SQL 存储 Java
Java实现excel表数据的批量存储(结合easyexcel插件)
Java实现excel表数据的批量存储(结合easyexcel插件)
layui的exports插件,导出excel时,长数字为科学计数法解决
layui的exports插件,导出excel时,长数字为科学计数法解决
831 0
|
SQL 前端开发 关系型数据库
express中使用node-xlsx插件下载excel表格
express中使用node-xlsx插件下载excel表格
283 0
|
机器学习/深度学习 数据挖掘 算法框架/工具
数据挖掘-二手车价格预测 Task01:赛题理解
赛题以预测二手车的交易价格为任务,数据集来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。
384 0
数据挖掘-二手车价格预测 Task01:赛题理解
|
数据可视化 数据挖掘 Python
JupyterLab 这插件太强了,Excel灵魂附体
JupyterLab 这插件太强了,Excel灵魂附体
JupyterLab 这插件太强了,Excel灵魂附体
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘导论——分类与预测(三)
数据挖掘导论——分类与预测
262 0
数据挖掘导论——分类与预测(三)
|
数据挖掘
数据挖掘导论——分类与预测(二)
数据挖掘导论——分类与预测
265 0
数据挖掘导论——分类与预测(二)
|
数据挖掘
数据挖掘导论——分类与预测(一)
数据挖掘导论——分类与预测
278 0
数据挖掘导论——分类与预测(一)
|
机器学习/深度学习 数据挖掘 存储
数据挖掘二手车价格预测 Task05:模型融合
模型融合是kaggle等比赛中经常使用到的一个利器,它通常可以在各种不同的机器学习任务中使结果获得提升。顾名思义,模型融合就是综合考虑不同模型的情况,并将它们的结果融合到一起。模型融合主要通过几部分来实现:从提交结果文件中融合、stacking和blending。
193 0
数据挖掘二手车价格预测 Task05:模型融合