“运维”,这个跟企业级IT息息相关的词汇,在2019年忽然变成了一个出现频率极高的热词,是笔者始料未及的。无论是华为还是新华三,无论是阿里还是腾讯,都在各个公开场合越来越多地把“运维”这个词汇衔在嘴边。运维是什么?“运维首先要有底线思维,有灾备方案;其次要有数据思维,有备份。这些,意味着运维希望少变、不变,但今天的虚拟化、容器化、微服务化,运维人员面对的新的技术越来越多,需要管理的对象越来越多。”光大银行信息科技部副总经理彭晓直指问题核心。或许,运维的高热真的不是仅仅因为高大上的AI技术趋势和企业服务理念,也不是简单因为运维人力成本的压力增高,而是在于今天的数字化、微服务时代,智能运维已经成为了企业的刚需。值得一提的是,有这么一家初创企业,CEO年仅30,带着一个近百号人的技术团队,在智能运维的道路上已经一发而不可收拾,头部客户囊括了交通银行、招商银行、民生银行、光大银行、广发银行等等一大串令人称羡的名字。这家初创企业,就是BizSeer必示科技。
清华系算法
2016年11月,必示科技成立。公司创建之初,就获得了千万元的天使轮融资。“运维的场景非常复杂,仅仅有开源的工具和算法是不够的。”BizSeer必示科技CEO刘大鹏博士说,“必示的智能运维引擎是和场景深度结合的技术,很多技术实际上是必示与客户一起打磨出来的。”
BizSeer必示科技CEO刘大鹏博士
必示的技术团队源自清华大学智能运维实验室,几位核心成员在清华计算机系读博时就开始主攻智能运维方向,开拓并积累了大量前沿成果。产品的厚积薄发让其在早期经获得了大量头部金融客户认可和采购。而今,必示对故障发现和定位的准确率能达到90%以上,平均故障解决时间减少50%以上。准确来说,必示科技打造的是智能运维(AIOps)引擎,也就是用人工智能技术赋能IT运维领域,让企业可以从复杂的IT软硬件和海量监控数据中自动、准确、快速地发现异常、定位故障、预测风险,提高企业IT系统可用性和运维效率。随着必示科技的发展渐渐步入正轨,越来越多的清华计算机系同门从微软、阿里、百度等公司来到必示科技。“在人才方面,必示不仅仅有20多位智能运维方向的博士、硕士,而且请来了十几位经验在10年以上行业资深专家。”刘大鹏介绍说,必示科技的团队在智能运维方向深耕多年,在国际前沿学术会议上发表论文100余篇,是国内顶尖的智能运维团队。“我们的智能运维平台,现在集成了12种专业的智能运维算法方案。”24岁就取得清华大学计算机系博士学位的隋楷心,曾就职于微软亚洲研究院,后在树根互联的AI Lab总监的位置上加盟必示科技,担负起必示科技AIOps实验室总监的重任。
必示科技AIOps实验室总监隋楷心
隋楷心介绍说:“每个智能运维场景都需要潜心深耕,比如微软早在2014年就开始研究多维度数据的异常定位算法了。当总交易量出现问题的时候,如何在海量搜索空间中自动智能地进行下钻定位根因维度组合?这一直是IT运维的难题,需要进行大量的前置性研究和算法设计,同时根据实际场景不断对算法进行优化。”
构建运维数据中台
很显然,有了算法,对数据的分析,一定是建立在大数据的基础上的;而对多维数据的分析,不仅数据量大,还在于异构数据的清洗和数据的集成。“民生银行现在建立运维的大数据平台,把目前的监控、流程平台、审计日志、系统应用日志、数据库日志等等全都汇在一个大数据平台里面。”民生银行信息科技部总经理助理、数据中心副总经理彭真山说,“每次出现事件以后,更多还是依赖于专家,智能运维会做一个辅助性的手段。”彭真山举了一个例子:当虚拟机的磁盘出现假死的状态,而没有告警的情况下,我们采用必示的平台去复盘,看看能不能提供一些决策依据。
实际上,当前银行通常会面临多种情况,无论是传统架构、分布式架构、互联网架构等等都要面对。而且随着5G、IoT、物联网技术的应用,企业的数据会越来越大。北京银行系统运营部副总经理武威认为,先要做数据集中,才能做后面智能化运维的工作,而数据集中的基础是数据质量、数据标准的问题。武威所说的数据,更多是CMDB里的系统和设备的关联关系、系统间的关联关系、设备和网络端口的关系等等。“今天我们要获取负载均衡的信息来理解应用的状态,但是CMDB就没有负载均衡策略和应用系统之间的关系数据;也没有对批处理作业的步骤、现在实际数据量和当天交易量之间的关系数据,这样做监控和后续分析就很难,反过来又做数据治理的相关工作。”武威说。
运维知识图谱的平台化
值得一提的是,一家用户的中台好搭,但覆盖全场景的中台并不简单。举个例子,证券的场景和银行的场景就有很大区别,因为银行的业务量相对平稳,但证券的业务完全是根据市场情况来的。因此,IT运维的行业应用场景非常个性化,不同的智能运维算法在各种应用场景中都需要进行按需组合。但同时,同一类的应用场景又会发现共性的问题,所以算法的服务化就变成了趋势。刘大鹏认为,算法的服务化需要数据和算法能够进行很好的解耦,才能真正满足不同的需求;同时,排障经验的沉淀需要放在一个可扩展的架构里面;第三,整个算法架构需要支持多个算法之间进行编排串联。实际上,必示科技把运维算法的服务定义为运维知识图谱。在必示科技看来,平台化的运维知识图谱,可以把算法、图谱、数据这三个概念结合在一起做多个算法的编排和整合,就可以提升效率,把整体运维服务得更好。
举个例子,如果每个事件不只是单独报警,而是有很多排查的信息附在报警里面,那么IT运维就可以了解到更具体的问题。据了解,必示科技把运维知识图谱分成了三个阶段:第一个阶段是必示团队目前完成的版本,支撑两个功能包括所有的数据关系接入和多样算法编排的支持。“2.0版本我们规划了两个内容,一个是在图谱上做推理的操作,比如说几百个系统之间的关系复杂,我们检测到50个系统同时出现了性能问题,这到底是什么原因,其实这是基于图谱的推理;还有一部分是外部知识的链接和融合,我们希望把外部的知识能够融合到一块儿,这是典型知识图谱要做的事情。”刘大鹏表示。据悉,必示科技运维知识图谱3.0版本希望可以通过关系挖掘去推断缺失的关系,包括对于图谱中关系的补全,也包括对于属性的补全;同时,将逐步形成智能的“排障树”。“我们希望这个图谱建立起来之后,上面可以支撑很多不同的数据和系统,我们能够根据用户当前的监控环境自动推荐算法组合。”刘大鹏解释说,“整个运维知识图谱的关键在于对不同数据的高效接入、清洗以及中台的能力,其上是一层算法结构,然后才是各种算法或算法组合来提供各式各样的服务。”或许,运维知识图谱平台真的是智能运维的未来,让每一个运维人员都可以喝着咖啡解决问题,为企业的数字化转型贡献出自己的力量。