开发者学堂课程【第八届“互联网+”大赛阿里云产业命题大规模云计算系统中计子系统故障预测:互联网大赛+命题解析-大规模云计算系统中计算子系统故障预测】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1026/detail/15100
互联网大赛+命题解析-大规模云计算系统中计算子系统故障预测
赛题名称是大规模云计算环境下计算子系统故障预测算法,稳定性是阿里云 ecs 的基石,也是 ecs 产品持续建设的重要品牌口碑,ecs 作为阿里云最基础的 ecs 服务器,业务体量与服务用户规模都非常的大。
ecs 产品的稳定性直接影响到百万用户的基础设施稳定性,同时 ecs 产品的复杂度又非常的高,很像涉及存储网络等多个产品组件,纵向技术站又涉及 os 内核虚拟化服务器硬件,物理网络 idc 等多个领域的技术,其中任何产品和组件的故障风险都会影响到 ecs 实例的稳定性。而 ecs 产品的特性又决定了 ecs 的稳定性,极度依赖于服务器,单节点的稳定性。
所以为了实现永不停机的计算服务,需要在节点故障发生之前提前将其预测出来,从而提前将风险消除,这就是提升 ecs 稳定性的关键技术路径,在目前阿里云的ecs 产品中,计算子系统也就是 cpu 和内存导致节点故障是影响 ecs 稳定性的头号因素,占比最高。不过能够解决这个问题产生的价值也最大。
但是像 cpu 和内存等产品部件,由于受限于英特尔等公司的一些商业机密,其中有一些很黑核的部分不能透露,就会导致问题的定位会受到一定的阻碍,由于 ecs 产品已经积累了多年的数据,标注了很多很多的宕级的事实标签,这使得在这个数据积累的基础上可以采取大数据加人工智能的方法实现一套故障预测的系统,这也就是今天赛题的内容。
3、赛题的内容是大规模云计算环境下计算子系统故障预测算法,参赛者需要基于所提供的服务器的异常日志的数据预测该服务器在未来是否会发生宕机,将会提供一段时间内的服务器的异常日志数据。与服务器的内存和 cpu 的宕机记录。
参赛者需要从提供的数据中,挖掘出和内存 cpu 宕机所相关的特征,并且采用合适的机器学习算法进行训练。最终得到可以去预测 cpu 和内存宕机的最佳模型。
对数据处理的方法和算法都不加以限制,但是选手应当综合考虑算法的效果和复杂度构建相对高效的解决方案。更具体的答题要求呢,在初赛阶段,希望选手将模型在测试集中预测唯一的结果保存为 csv 的格式文件,并打包成 zip 压缩文件进行提交,具体格式,首先标注预测出来的 ncip,以逗号分割,后面跟上预测出它宕机时刻的样本时间,评价指标最终会以 f1-score 进行评价,f1-score 的公式,F1-score =2*(precision*recall)/(precision+recall),precision 和 recall 具体的定义是label 为1且预测为1的样本书,是 true positive。label 为零,但是预测为1是false positive。然后 position 呢,就是 true positive 除以 true positive 加上false positive,Label 为1,但是预测为零的是一个 false negative,召回率recall就是用 true positive 除以 true positive,加上 false negative,这是初赛阶段的评价指标。
在复赛阶段,除了 f1-score 之外,开始考虑到性能的影响,会记录模型在inference 阶段的运行时间,单个样本预测耗时速超过一定阈值都会中断计算,并且将其记录为预测为0。