近日,Facebook的研究人员提出了一种新的用于模型选择(SSL-MS) 和超参数调整(SSL-HPT)的自监督学习框架,该框架以较少的计算时间和资源提供准确的预测。
与基于基线搜索的算法相比,SSL-HPT 算法估计超参数的速度快了6-20倍,同时在各种应用中产生了比较准确的预测结果。
SSL:估算超参数速度快6-20倍
在时间序列分析(用于发现趋势或预测未来值)中,超参数的细微差别可能导致给定模型的非常不同的预测结果。
因此,选择最优的超参数值显得尤为重要。
大多数现有的超参数调整方法,如网格搜索、随机搜索和贝叶斯最优搜索,都是基于一个关键组件: 搜索。
因此,它们计算代价非常昂贵,不能应用于快速、可扩展的时间序列超参数调整。
研究人员提出的框架 SSL-HPT 使用时间序列特征作为输入(不牺牲精确度的情况下),在较短的时间内产生最佳的超参数。
那么,它们是如何工作的呢?
研究人员开发的自监督学习框架在预测时的两个主要任务: SSL-MS 和 SSL-HPT。
SSL-MS: SSL-MS 的自我监督学习框架包括三个步骤,如下所示:
1 离线训练数据准备: 获得每个时间序列的时间序列特征和每个时间序列的最佳性能模型通过离线超参数调整。
2 离线训练: 利用步骤1中的数据训练分类器(自我监督学习者) ,其中输入特征(预测器)是时间序列特征,标记是步骤1中性能最好的模型。
3 线模型预测: 在线服务中,对于新的时间序列数据,提取特征,然后使用预先训练的分类器进行推理,例如随机森林模型。
SSL-MS 的工作流程可以自然地扩展到 SSL-HPT。
如下图所示,给定一个模型,探索每个时间序列在预定义参数空间内的所有超参数设置。
对于输入 x,研究者在这里使用的时间序列特征与 SSL-MS 相同。
自监督学习器一经训练,就可以直接对超参数进行预测,并针对任何新的时间序列数据产生预测结果。
最终,研究人员通过在内部和外部数据集上对新型算法进行了实证评估,并得到了相似的结论。
SSL 框架可以极大地提高模型选择和超参数调整的效率,以可比的预测精度减少6-20倍的运行时间。
预测为什么重要?
预测是 Facebook 的核心数据科学和机器学习任务之一,因此提供快速、可靠、准确的预测结果和大量的时间序列数据对自身的业务非常重要。
这个框架的应用包括容量规划和管理、需求预测、能源预测和异常检测。
计算技术的迅速发展使企业能够跟踪大量的时间序列数据集。因此,定期预测数百万个时间序列的需求正变得越来越普遍。
但是,要获得大量时间序列的快速且准确的预测仍然具有挑战性。
Facebook新提出的 SSL 框架提供了一个高效的解决方案,以低计算成本和短运行时间提供高质量的预测结果。
这种方法独立于特定的预测模型和算法,因此享有单个预测技术的优势,例如 Prophet 模型的可解释性。
初步分析表明, SSL框架可以扩展到模型推荐,并在Facebook内部 AX 库中增强贝叶斯优化算法。
论文一作:普渡大学华人学者
这篇论文一作是普渡大学大学的研究员Peiyi Zhang。
Peiyi Zhang本科毕业于浙江大学,并在康奈尔大学获得了硕士学位,普渡大学获得了博士学位。
去年6月,她还在Facebook进行了两个月的实习。
Peiyi Zhang曾获得洛杉矶市数据分析项目荣誉奖 、浙江大学学生科研训练计划优秀奖、大学生数学建模竞赛优秀奖。
Xiaodong Jiang是本片论文的第二作者,他目前在Facebook工作,担任基础设施研究数据科学家,开发通用时间序列分析工具。
他在佐治亚大学获得了硕士和博士学位。