近日,中国电子学会正式公布“2023中国电子学会科学技术奖”名单,清华大学、阿里云、南开大学、北京必示科技完成的“大规模在线服务智能运维核心技术及产业化”获得科技进步一等奖。
由院士等权威专家组成的鉴定委员会认为:该项目技术复杂,研究难度大,创新性强,项目整体成果达到国际先进水平,其中基于生成模型的指标异常检测、基于语言模型的日志异常检测、基于因果推理的故障定位处置等技术均达到了国际领先水平。
阿里云自2017年开始与清华大学和南开大学在“大规模在线服务智能运维技术”方面开展产学研合作,并取得重大突破。此次,该项目主要实现了“基于生成模型的指标异常检测”、“基于语言模型的日志异常检测”、“基于关系挖掘的事件关联分析”、“基于因果推理的故障定位处置”四个维度的技术创新。
同时,该合作的技术成果已应用于阿里云云计算软硬件管理系统“天基”之中,并通过飞天企业版应用于政府、金融等众多关乎国计民生的领域,服务上千家政企客户,保障各大型机构的基础设施平稳运行。
阿里云飞天企业版(Apsara Stack)是基于阿里云飞天云计算操作系统,为政企客户专属构建的资源和云管完全独立的企业级云平台。飞天企业版与阿里云公共云同根同源,采用同一套技术架构,为客户提供一致体验。通过本地部署,提供专有的计算、存储、网络等资源满足政企客户资产自持、安全合规、自主运维运营需求,其弹性、灵活的云平台能力同时满足客户资源高效利用、产品快速部署的需求。作为政企数智创新的同行者,自2014年起步历经近10年发展,目前飞天企业版已服务超过1000家大型政企客户。
“天基”系统通过应用“业务指标异常检测/数据库故障发现”和“基于服务联动体系的云平台AIOps研究”技术成果,保障了公共云以及飞天企业版的安全高效运行,实现阿里云基础设施的交付效率提升两倍以上、物理机集群全自动化运维。目前该系统维系着近百万台服务器规模的云平台监控、管理和自动化运维调度工作,实现运维综合效率提升50%以上,人力成本节约将近一倍的效果。
鉴定委员会认为该项目社会效益、经济效益显著,应用前景广阔。
未来,清华大学、南开大学与阿里云团队将进一步围绕智能运维技术展开合作,针对阿里云公共云及飞天企业版,深入推进故障预测、灰度故障发现、运维大模型等技术研究,丰富技术应用场景,提升技术成果的现实效益。