使用预测向导可以预测时序中的值。 预测向导使用 Microsoft 时序算法,该算法是一个用于预测连续列(例如产品销售)的回归算法。
每个预测模型必须包含一个事例序列,即区分序列中不同点的列。 例如,使用历史数据来预测几个月中的销售情况,则日期列为事例序列。
其他 Microsoft 算法创建依靠给定输入列来预测可预测列的模型(如决策树模型)。 但时序模型的预测则仅以算法在创建模型时从原始数据集派生的趋势为基础。
一、以票房数据进行预测
以50部电影信息作为预测:
注:在进行预测之前需要将SHOWTIME列进行排序
这里由于每部电影的时间有一定的间隔,因此预测的精确性会较低。
二、时间戳-文本转换为数值
如果进行预测的时候,在时间戳中没有找到对于时间的参数,可能原因是没有将数据转换为数值类型,而是以文本方式存储。
正确的做法是将时间变成数字:就是点击下图当中的转换为数字。
三、以NBA每场得分进行预测
以如下数据作为预测:
下面的数据是将700多条的NBA数据先转换成数据透视表,然后对每场得分(pointsPg)求平均值,得到的就是每年每场得分的平均值,根据已知的数据预测未来的数据。
四、创建挖掘结构
按默认步骤创建一个预测模型。
如果在创建挖掘结构的时候,没有指定KEY TIME,则使用算法的时候会报错:
因此将YEAR当做KEY TIME:
之后按照步骤进行创建。
五、管理挖掘结构
六、将模型添加到结构
创建好预测模型之后,需要将模型添加到结构
- 选择时序算法。
Microsoft 时序算法结合使用 ARIMA 分析与基于决策树的线性回归来分析与时间相关的数据,例如,月销售额数据或年利润。该算法发现的模式可用于预测未来时间步长的值。该算法可自定义为使用决策树方法或 ARIMA,或同时使用两者。
2. 选择逻辑回归算法
Microsoft 逻辑回归算法是一种适合回归建模的回归算法。该算法是 Microsoft 神经网络算法的一种,是通过消除隐藏层获得的。该算法支持对离散属性和连续属性进行预测。
这次选择没有经过整理的NBA原始数据:
七、以新冠疫情数据进行预测
部分数据如下:
此外,还可以显示历史预测信息和偏差: