近日,在中国信息通信研究院主办的2024年第五届“GOLF+IT新治理领导力论坛”上,中国数字化治理领域最新评估结果揭晓,阿里云成为首批通过信通院“企业用云治理能力成熟度评估”评测的两家企业之一,同时获得该项能力评估最高等级。
据信通院发布的《企业用云治理能力成熟度分级要求》,企业用云治理能力成熟度评估共分为L1-L5共5个等级,阿里云测评结果为L4+,是目前阶段云服务提供商实际获得的最高等级。此前,阿里云企业用云治理能力曾两度获得信通院评测认可,包括2022年“企业云治理能力成熟度模型”获信通院科技治理领域年度明星解决方案及产品;2023年“云治理中心”获信通院科技治理领域年度明星解决方案。
《企业用云治理能力成熟度分级要求》是由信通院于2022年发起,阿里云等20多家企业共同参与起草的行业标准,它提出了企业用云治理能力成熟度模型和云治理能力水平分级要求。该标准通过对企业总体能力成熟度进行综合评估,评测结果分为5个等级,分别为L1基础级、L2应用级、L3优秀级、L4先进级、L5卓越级。
阿里云开放平台负责人何登成表示:“构建可靠的云上系统是云厂商与用户共同的责任,未来面向更高智能化层级要求,阿里云会根据数字化架构蓝图,进一步实现智能化检测运行风险的能力,提供治理优化建议。”
管好云、用好云的卓越架构
与行业标准《企业用云治理能力成熟度分级要求》相结合,阿里云将多年服务客户的经验总结为一系列的方法论和架构设计原则,推出了阿里云卓越架构(Well-Architected Framework),并提供云治理成熟度模型作为客观度量手段,帮助企业在云上构建一个安全、稳定、高效的应用环境。
同时,基于要求云服务商还需要协助企业对云上环境、应用和服务架构进行全数字化管理,并可根据架构规划自动化创建和变更,这也推动阿里云卓越架构在稳定性高可用技术能力方面不断完善。
全栈AI负载高可用架构全新发布
面向AI时代,阿里云还着重升级云平台自身的技术服务能力,推出全栈AI负载高可用架构,将GPU、异构算力集群、容器集群、存储、向量数据库、机器学习平台等AI负载高可用全面融入云平台架构设计,围绕大模型训练微调、推理、多模态数据处理等环节,构建具备“高可用模型训练、灵活弹性的推理资源、数据高可靠”特性的全栈AI负载高可用架构,实现了从通用负载向AI负载的可用性演进,为客户AI业务构建提供稳定的服务和体验。
阿里云全栈AI负载高可用架构,以为生成式 AI 打造持续的卓越用户体验为目标,可达到GPU故障预测准确率92%,千卡规模集群连续训练有效时长大于99%,秒级模型自动保存、分钟级故障恢复;每分钟10000个pod扩展,分钟级自动扩容;核心模型服务99.99%的API SLA,模型应用服务全链路可观测等重要的AI业务高可用目标,在大规模数据处理和训推场景下,实现了对Gen AI应用业务连续性、响应速度、稳定性和安全性的全面保障。
AI时代,共建云上IT新治理
在云上构建可靠的系统是云厂商与用户共同的责任。云厂商负责提供云平台的可靠性,确保提供的云服务可用性符合或超过阿里云服务等级协议;用户需要根据业务需求,选择合适的产品服务,并根据云相关文档的指导搭建高可用架构,来确保云上应用的可靠性。
在AI迅猛发展的今天,企业更应让业务系统利用现代云平台的基础设施达到高可用,包括面向失败的设计架构,能够容灾、容量、容错;面向精细的运维管控,能够可观测、可灰度、可回滚;面向风险的应急快恢,做到1-5-10。同时,用户可以在建设持续稳定的云环境过程中,面向AI并结合AI,通过良好的AI模型训推架构设计、AI数据资产处理与存储、智能诊断与风险预测等手段,进一步提升系统可用性、可靠性、可持续性。
/ END /