说到“运维”能想到的是什么?
稳定性→监控→凡是想得到的,都要监控起来……
时效性→人工排查→查不出,再查,反复查……
安全性→容灾→备份备份再备份……
成本控制→性能优化→加载、维护、配置、升级、补丁……
对传统运维的诉求和困境,同样适用于云上IT系统运维。
为解决上述诉求,阿里云高级技术专家许玲提出了“智能诊断”这个概念,利用AI技术来完成以下三项核心任务:1、识别风险;2、定位原因3、提供“定制性”解决方案。这里的关键词是“智能”,不需要人工或只需要极少量的人工介入,就能完成传统运维需要大量人力投入来做的事情。
AI智能的短板:数据
那么要实现智能诊断,最大的短板是什么?答案是“数据”,AI落地成功的四大要素:场景+算法+工程+数据,前三者在不同领域的可复用性相对较高,已经有了不少成功的案例,而唯有数据是强行业属性的,业内有句话叫做“有多少人工,才有多少智能”,要训练算法, AI在实验室里的先进程度远远大于商用的成熟度。商业化落地过程中,传统做法是大量的标注数据,标注的准确性直接决定算法的效果,并且数据需要不断更新,持续调优,流入新生数据,淘汰“过时”数据,因此在“运维辅助”这个专业性非常强的领域一直以来AI都很难大有作为,而云计算平台给数据短板创造了解决的条件。
云平台创造了解决数据短板的条件:在线
云计算平台让数据在线,并提供性价比更高的可扩展的在线计算能力。所谓的数据在线,就是云计算平台能够在线上实时采集到不涉及到用户业务数据的系统行为与用户行为数据,包括IT系统运行时健康数据、系统故障数据、负载特征、配置变更数据、特定用户行为数据。有了实时在线的数据,利用AI自学习技术,就能实现数据闭环,跑通“系统健康监控→诊断过程→诊断结果→实践效果”的链路,并持续纠正。这套“数据闭环,以工程养数据,数据养算法”的AI应用已经在售后服务场景里验证成功。
阿里云智能诊断初具雏形
目前阿里云的部分智能诊断能力已经上线并免费开放给用户在使用了,包括
- 系统资源导致的性能瓶颈、受安全攻击风险、账户欠费或者实例过期引起的服务中断风险;
- 系统配置不当引起的系统运行时问题等。
据许玲透露,智能诊断很快会开放更多在性能优化、成本优化、安全监控及修复、容错等核心运维诉求上的诊断能力。AI的商业价值是,做人类做不了的事,做比人类做得更好的事,在运维辅助这个战场上,自动识别风险,定位原因并提供“定制性”解决方案这一目标已经不远了。