摘要:在12月7日召开的云栖大会苏州峰会上,由阿里云高级技术专家许玲带来了“智能诊断——人工智能在云平台上的新玩法”的演讲。分享了云上IT系统运维的诉求,需要解决的问题,典型场景与案例的分析以及目前取得的成果与实践。
以下为精彩视频整理:
阿里云在某一些具体领域把人工智能和企业级云上架构结合起来,解决一些刚需问题。有些人工智能落地的问题在传统的IT架构里面是很难做到,但现在在云上可以完成了。
云上IT系统的运维诉求
在把系统上云之后,我们发现在运维层面的诉求和原来有很大的不同。上云后业务增长的会比较快,技术架构也会持续迭代,这就要求运维的人对业务和对技术架构同时掌握的比较清楚,进而就会提高对技术人员的要求。但和传统的IT系统运维还是有一脉相传的地方,同样要求系统稳定性要好,在高负载下有很好的并发,有高并发处理的能力,可以随着业务的增长而扩展。在安全性的诉求上,因为业务需求带来的系统技术容量上的弹性伸缩,这就需要更敏捷的做到伸缩,保证系统的性价比。
一个传统半自动运维模式是首先进行大量的数据采集,数据采集之后做成报表,可以做定制化的报警,最后需要人工对产生的报警做问题的分析,找到问题的原因,进而去做系统级的或者模块级的优化。这样会带来两个问题,一是业务的变化带来系统架构的变化,就会对人的要求非常的高;一是这种模式滞后性比较强,往往是已经报警了问题已经出现了,人工才去分析和解决问题。
在过去两年我的团队做了一些基础的探索,目前也取得了一些初步的成果,所以下面给大家分享一下怎么样用AI的技术做一些突破。
要解决的问题
既然是用AI的技术必然就涉及两个方面,第一个就是AI必须能够主动的学到一些新的、未知的东西。第二个就是不同的用户可能面临同样的问题,但是解决方案是不一样的,尤其在云平台上这一点表现的非常明显。
AI的商业化有一点就是要解决刚需,不是去做创造性的需求。AI的技术能否成功落地取决于算法、场景、工程和数据这四大要素。其中最关键的一个问题就在于数据,为什么说要在云平台上做这件事才做的成,因为它让数据在线。在线后的数据恰恰是做运维的智能化、做诊断的智能化非常依赖的数据。
为什么说云平台创造了智能化的条件,是因为它让数据在线,同时还有大量的在线异构数据。我们需要非常庞大的计算、存储、传输的能力,才能把这些数据用起来,才能学到随着系统和业务的变化形成新的模式,进而得到这些模式下对应的问题和解决方案分别是什么。
典型场景与案例分析
要想让机器人具有认知能力,就需要大量的人工数据的打标,告诉机器人什么样的数据有什么样的响应。机器人做不到以不变应万变,在上线一段时间后整体的业务效果会萎缩,准确率也会下降,每隔一段时间就需要人工的对所有的数据进行一次梳理,然后再来打标,产生第二版的数据,这个过程会循环的周而复始。
阿里云经过尝试得到了一个解决的方法,我们称之为数据闭环,带来了AI自学习的能力。对系统的网络流量、磁盘IO的使用量、CPU的使用量、以及业务发展、用户访问量这些数据记录下来之后,通过一套离线的自学习算法,是可以让机器自己来学习到新的知识,不需要人工的参与。提取出来的结果,可以有一个人工的审核的过程,审核后的数据可以做为下一版的数据进行应用。
成果与实践
经过我们的努力也取得了一定的成果,下面是我们在客服的领域实施的一个具体的实践。首先云平台上提供了大量的数据,包括用户行为的数据,会对行为来进行分析,可以知道今天所有AI信息哪些是对的哪些是错的。对于用户画像是基于我们的需求来做的,画像主要是用于不同的客户可能存在同样的问题,但问题背后的原因是不一样的,不同的原因提供解决方案是不同的。关于云产品的健康监控,需要人工去定义一些指标来进行监控。所有的这些数据最后会成为一个决策系统,去分析问题的原因以及去计算解决答案。
离线计算出来的模型,最后会形成一组决策树。每一类问题会对应一组决策树,每个决策树的根结点就是一个问题的表现,叶子结点就是这个问题的解决方案,中间会有很多条件,这些条件有些是用户系统的特征有些是用户画像的特征,通过这个智能的方法算出这些问题模型之后,就可以得到解决的方案。
这是关于智能诊断我们在今年的11月份已经上线的一部分功能,正在通过售后的渠道开放给用户免费来用,目前对于云资源使用的风险,以及可能遭受安全攻击的一些风险,或者目前正遭受安全攻击,要怎么样去解决这些问题的诊断和建议。这样的诊断能力是目前我们已经开放出来的,那么未来我们也会有更多的诊断能力开放出来。
在离线分析平台部分我们也面临一些问题,比如说我们在做聚类分析的过程中会存在有大量的没有办法聚到一起的情况,这个地方还在进行探索和突破,预计会在明年的年初会有更多的技术细节是可以开放出来的。
本文由云栖社区志愿者小组smile小太阳整理,毛鹤审校。编辑:郭雪梅。