互联网大赛+命题解析-大规模云计算系统中计算子系统故障预测|学习笔记

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 快速学习互联网大赛+命题解析-大规模云计算系统中计算子系统故障预测

开发者学堂课程【第八届“互联网+”大赛阿里云产业命题大规模云计算系统中计子系统故障预测互联网大赛+命题解析-大规模云计算系统中计算子系统故障预测】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/1026/detail/15100


互联网大赛+命题解析-大规模云计算系统中计算子系统故障预测


赛题名称大规模云计算环境下计算子系统故障预测算法稳定性是阿里云 ecs 的基石,也是 ecs 产品持续建设的重要品牌口碑ecs 作为阿里云最基础的 ecs 服务器业务体量与服务用户规模都非常的大。

ecs 产品的稳定性直接影响到百万用户的基础设施稳定性同时 ecs 产品的复杂度又非常的高,很像涉及存储网络等多个产品组件纵向技术站又涉及 os 内核虚拟化服务器硬件物理网络 idc 等多个领域的技术,其中任何产品和组件的故障风险都会影响到 ecs 实例的稳定性。而 ecs 产品的特性又决定了 ecs 的稳定性,极度依赖于服务器,单节点的稳定性。

所以为了实现永不停机的计算服务需要在节点故障发生之前提前将其预测出来,从而提前将风险消除这就是提升 ecs 稳定性的关键技术路径在目前阿里云的ecs 产品中计算子系统也就是 cpu 和内存导致节点故障是影响 ecs 稳定性的头号因素,占比最高。不过能够解决这个问题产生的价值也最大。

但是像 cpu 和内存等产品部件由于受限于英特尔等公司的一些商业机密,其中有一些很黑的部分不能透露,就会导致问题的定位会受到一定的阻碍由于 ecs 产品已经积累了多年的数据,标注了很多很多的宕级的事实标签,这使得在这个数据积累的基础上可以采取大数据加人工智能的方法实现一套故障预测的系统这也就是今天赛题的内容

3、赛题的内容是大规模云计算环境下计算子系统故障预测算法,参赛者需要基于所提供的服务器的异常日志的数据预测该服务器在未来是否会发生宕机,将会提供一段时间内的服务器的异常日志数据。与服务器的内存和 cpu 宕机记录。

参赛者需要从提供的数据,挖掘出和内存 cpu 宕机所相关的特征并且采用合适的机器学习算法进行训练。最终得到可以去预测 cpu 和内存宕机的最佳模型。

对数据处理的方法和算法都不加以限制,但是选手应当综合考虑算法的效果和复杂度构建相对高效的解决方案。更具体的答题要求呢在初赛阶段,希望选手将模型在测试集中预测唯一的结果保存为 csv 的格式文件,并打包成 zip 压缩文件进行提交,具体格式首先标注预测出来的 ncip,以逗号分割后面跟上预测出它宕机时刻的样本时间评价指标最终会以 f1-score 进行评价f1-score 的公式,F1-score =2*(precision*recall)/(precision+recall)precision recall 具体的定义是label 为1且预测为1的样本书,是 true positive。label 为零,但是预测为1false positive。然后 position 呢,就是 true positive 除以 true positive 加上false positive,Label 为1,但是预测为零的是一个 false negative,召回率recall就是用 true positive 除true positive,加上 false negative这是初赛阶段的评价指标。

在复赛阶段,除了 f1-score 之外开始考虑到性能的影响,会记录模型在inference 阶段的运行时间,单个样本预测耗时速超过一定阈值都会中断计算,并且将其记录为预测为0。

相关文章
|
28天前
|
存储 应用服务中间件 云计算
深入解析:云计算中的容器化技术——Docker实战指南
【10月更文挑战第14天】深入解析:云计算中的容器化技术——Docker实战指南
52 1
|
1月前
|
云计算 开发者 Docker
揭秘云计算中的容器化技术——Docker的深度解析
【10月更文挑战第6天】揭秘云计算中的容器化技术——Docker的深度解析
|
6月前
|
存储 分布式计算 分布式数据库
【专栏】云计算与分布式系统架构在数字化时代的关键作用。云计算,凭借弹性、可扩展性和高可用性,提供便捷的计算环境
【4月更文挑战第27天】本文探讨了云计算与分布式系统架构在数字化时代的关键作用。云计算,凭借弹性、可扩展性和高可用性,提供便捷的计算环境;分布式系统架构则通过多计算机协同工作,实现任务并行和容错。两者相互依存,共同推动企业数字化转型、科技创新、公共服务升级及数字经济发展。虚拟化、分布式存储和计算、网络技术是其核心技术。未来,深化研究与应用这些技术将促进数字化时代的持续进步。
188 4
|
3月前
|
存储 算法 Java
Java中的集合框架深度解析云上守护:云计算与网络安全的协同进化
【8月更文挑战第29天】在Java的世界中,集合框架是数据结构的代言人。它不仅让数据存储变得优雅而高效,还为程序员提供了一套丰富的工具箱。本文将带你深入理解集合框架的设计哲学,探索其背后的原理,并分享一些实用的使用技巧。无论你是初学者还是资深开发者,这篇文章都将为你打开一扇通往高效编程的大门。
|
3月前
|
存储 边缘计算 安全
边缘计算与云计算的协同工作:技术解析与应用前景
【8月更文挑战第4天】边缘计算与云计算的协同工作是未来信息技术发展的重要趋势。通过合理地分配任务和资源,两者可以相互补充、发挥各自的优势,实现更高效的数据处理和分析。这种协同模式不仅提高了系统的性能和可靠性,还满足了复杂多变的应用需求,为人工智能、物联网等技术的发展提供了强有力的支持。
215 11
|
4月前
|
弹性计算 负载均衡 网络协议
云计算中的弹性伸缩与负载均衡技术解析
【7月更文挑战第4天】弹性伸缩与负载均衡作为云计算平台中的两大关键技术,对于构建高可用、可扩展的应用系统具有重要意义。通过合理利用这两种技术,企业可以灵活应对不断变化的业务需求,降低运营成本,提高资源利用效率。未来,随着技术的不断进步和应用的深入,弹性伸缩与负载均衡技术将在更多领域发挥重要作用,推动云计算技术的持续发展。
|
5月前
|
存储 缓存 运维
云计算中的服务器选型与配置:技术深度解析
【6月更文挑战第29天】云计算服务器选型与配置深度解析:关注业务需求、技术要求及成本效益。重点包括CPU、内存、存储和网络配置的优化,结合负载均衡、缓存、虚拟化和自动化运维策略,以提升性能和效率,确保云服务的稳定与高效。
|
5月前
|
存储 Cloud Native 安全
|
5月前
|
存储 弹性计算 数据挖掘
云计算在科研计算中的高效应用
云计算在科研计算中的高效应用
87 0
|
6月前
|
XML Java 数据库
【后台开发】TinyWebser学习笔记(3)HTTP连接与解析
【后台开发】TinyWebser学习笔记(3)HTTP连接与解析
162 4