必示科技:走在运维算法编排平衡木上的舞者

简介: 必示科技:走在运维算法编排平衡木上的舞者

image.png


“运维”,这个跟企业级IT息息相关的词汇,在2019年忽然变成了一个出现频率极高的热词,是笔者始料未及的。无论是华为还是新华三,无论是阿里还是腾讯,都在各个公开场合越来越多地把“运维”这个词汇衔在嘴边。运维是什么?“运维首先要有底线思维,有灾备方案;其次要有数据思维,有备份。这些,意味着运维希望少变、不变,但今天的虚拟化、容器化、微服务化,运维人员面对的新的技术越来越多,需要管理的对象越来越多。”光大银行信息科技部副总经理彭晓直指问题核心或许,运维的高热真的不是仅仅因为高大上的AI技术趋势和企业服务理念,也不是简单因为运维人力成本的压力增高,而是在于今天的数字化、微服务时代,智能运维已经成为了企业的刚需。值得一提的是,有这么一家初创企业,CEO年仅30,带着一个近百号人的技术团队,在智能运维的道路上已经一发而不可收拾,头部客户囊括了交通银行、招商银行、民生银行、光大银行、广发银行等等一大串令人称羡的名字。这家初创企业,就是BizSeer必示科技。


清华系算法


2016年11月,必示科技成立。公司创建之初,就获得了千万元的天使轮融资。“运维的场景非常复杂,仅仅有开源的工具和算法是不够的。”BizSeer必示科技CEO刘大鹏博士说,“必示的智能运维引擎是和场景深度结合的技术,很多技术实际上是必示与客户一起打磨出来的

image.png

BizSeer必示科技CEO刘大鹏博士


必示的技术团队源自清华大学智能运维实验室,几位核心成员在清华计算机系读博时就开始主攻智能运维方向,开拓并积累了大量前沿成果。产品的厚积薄发让其在早期经获得了大量头部金融客户认可和采购。而今,必示对故障发现和定位的准确率能达到90%以上,平均故障解决时间减少50%以上。准确来说,必示科技打造的是智能运维(AIOps)引擎,也就是用人工智能技术赋能IT运维领域,让企业可以从复杂的IT软硬件和海量监控数据中自动、准确、快速地发现异常、定位故障、预测风险,提高企业IT系统可用性和运维效率。随着必示科技的发展渐渐步入正轨,越来越多的清华计算机系同门从微软、阿里、百度等公司来到必示科技。“在人才方面,必示不仅仅有20多位智能运维方向的博士、硕士,而且请来了十几位经验在10年以上行业资深专家。”刘大鹏介绍说,必示科技的团队在智能运维方向深耕多年,在国际前沿学术会议上发表论文100余篇,是国内顶尖的智能运维团队。“我们的智能运维平台,现在集成了12种专业的智能运维算法方案。”24岁就取得清华大学计算机系博士学位的隋楷心,曾就职于微软亚洲研究院,后在树根互联的AI Lab总监的位置上加盟必示科技,担负起必示科技AIOps实验室总监的重任。

image.png

必示科技AIOps实验室总监隋楷心


隋楷心介绍说:“每个智能运维场景都需要潜心深耕,比如微软早在2014年就开始研究多维度数据的异常定位算法了。当总交易量出现问题的时候,如何在海量搜索空间中自动智能地进行下钻定位根因维度组合?这一直是IT运维的难题,需要进行大量的前置性研究和算法设计,同时根据实际场景不断对算法进行优化。


构建运维数据中台


很显然,有了算法,对数据的分析,一定是建立在大数据的基础上的;对多维数据的分析,不仅数据量大,还在于异构数据的清洗和数据的集成“民生银行现在建立运维的大数据平台,把目前的监控、流程平台、审计日志、系统应用日志、数据库日志等等全都汇在一个大数据平台里面。”民生银行信息科技部总经理助理、数据中心副总经理彭真山说,“每次出现事件以后,更多还是依赖于专家,智能运维会做一个辅助性的手段。彭真山举了一个例子:当虚拟机的磁盘出现假死的状态,而没有告警的情况下,我们采用必示的平台去复盘,看看能不能提供一些决策依据。

image.png

实际上,当前银行通常会面临多种情况,无论是传统架构、分布式架构、互联网架构等等都要面对。而且随着5G、IoT、物联网技术的应用,企业的数据会越来越大。北京银行系统运营部副总经理武威认为,先要做数据集中,才能做后面智能化运维的工作,而数据集中的基础是数据质量、数据标准的问题。武威所说的数据,更多是CMDB里的系统和设备的关联关系、系统间的关联关系、设备和网络端口的关系等等。“今天我们要获取负载均衡的信息来理解应用的状态,但是CMDB就没有负载均衡策略和应用系统之间的关系数据;也没有对批处理作业的步骤、现在实际数据量和当天交易量之间的关系数据,这样做监控和后续分析就很难,反过来又做数据治理的相关工作。”武威说。


运维知识图谱的平台化


值得一提的是,一家用户的中台好搭,但覆盖全场景的中台并不简单。举个例子,证券的场景和银行的场景就有很大区别,因为银行的业务量相对平稳,但证券的业务完全是根据市场情况来的。因此,IT运维的行业应用场景非常个性化,不同的智能运维算法在各种应用场景中都需要进行按需组合。但同时,同一类的应用场景又会发现共性的问题,所以算法的服务化就变成了趋势。刘大鹏认为,算法的服务化需要数据和算法能够进行很好的解耦,才能真正满足不同的需求;同时,排障经验的沉淀需要放在一个可扩展的架构里面;第三,整个算法架构需要支持多个算法之间进行编排串联。实际上,必示科技把运维算法的服务定义为运维知识图谱在必示科技看来,平台化的运维知识图谱,可以把算法、图谱、数据这三个概念结合在一起做多个算法的编排和整合,就可以提升效率,把整体运维服务得更好。

image.png

举个例子,如果每个事件不只是单独报警,而是有很多排查的信息附在报警里面,那么IT运维就可以了解到更具体的问题。据了解,必示科技把运维知识图谱分成了三个阶段:第一个阶段是必示团队目前完成的版本,支撑两个功能包括所有的数据关系接入和多样算法编排的支持“2.0版本我们规划了两个内容,一个是在图谱上做推理的操作,比如说几百个系统之间的关系复杂,我们检测到50个系统同时出现了性能问题,这到底是什么原因,其实这是基于图谱的推理;还有一部分是外部知识的链接和融合,我们希望把外部的知识能够融合到一块儿,这是典型知识图谱要做的事情。”刘大鹏表示。据悉,必示科技运维知识图谱3.0版本希望可以通过关系挖掘去推断缺失的关系,包括对于图谱中关系的补全,也包括对于属性的补全;同时,将逐步形成智能的“排障树”。“我们希望这个图谱建立起来之后,上面可以支撑很多不同的数据和系统,我们能够根据用户当前的监控环境自动推荐算法组合。”刘大鹏解释说,“整个运维知识图谱的关键在于对不同数据的高效接入、清洗以及中台的能力,其上是一层算法结构,然后才是各种算法或算法组合来提供各式各样的服务。或许,运维知识图谱平台真的是智能运维的未来,让每一个运维人员都可以喝着咖啡解决问题,为企业的数字化转型贡献出自己的力量。

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
142 1
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
|
6月前
|
运维 应用服务中间件 调度
|
机器学习/深度学习 自然语言处理 算法
顺丰科技-2024 机器学习算法 面经
顺丰科技-2024 机器学习算法 面经
58 0
|
算法 自动驾驶 测试技术
2023年秋招算法:北京清丰智行科技 自动驾驶开发 面经
2023年秋招算法:北京清丰智行科技 自动驾驶开发 面经
67 0
|
人工智能 算法 小程序
【年终特辑】看见科技创新力量 洞见时代创业精神—教育—体云动:用AI算法为孩子们打造云上健身教练
【年终特辑】看见科技创新力量 洞见时代创业精神—教育—体云动:用AI算法为孩子们打造云上健身教练
498 0
【年终特辑】看见科技创新力量 洞见时代创业精神—教育—体云动:用AI算法为孩子们打造云上健身教练
|
XML 自然语言处理 运维
【大数据开发运维解决方案】Solr6.2默认相似性算法检索匹配得分高于5.1版本问题分析
我们之前使用的solr版本是solr5.1,分词器使用的是jcseg1.9.6,后续接触了Solr6.2,分词器使用的是jcseg2.6.0,发现同一个Oracle库的同一套表数据,分别使用solr5.1和solr6.2版本的模板collection配置集做相同的字段配置并成功做索引后,做相同查询,solr6.2检索文档score远高于solr5.1,下面是我们使用的两个solr环境以及另一个单机solr测试环境的基本情况:
【大数据开发运维解决方案】Solr6.2默认相似性算法检索匹配得分高于5.1版本问题分析
|
机器学习/深度学习 算法 自动驾驶
NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法
NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法
191 0
|
人工智能 运维 Prometheus
鼎茂科技和阿里云完成产品集成认证,深度发力云上智能运维建设
近日,鼎茂科技旗下智能运维AIOps平台与阿里云旗下可观测套件ACOS产品,经过严格测试程序,完成了产品集成认证,这是继阿里云云原生加速器生态合作后,双方在云上智能运维领域的深度产品化合作。
248 0
鼎茂科技和阿里云完成产品集成认证,深度发力云上智能运维建设
|
算法 Python
云从科技研究院视觉算法实习技术面试-python题-python列表推导式的使用写法
云从科技研究院视觉算法实习技术面试-python题-python列表推导式的使用写法