GOPS 全球运维大会暨首届金牌运维峰会于11月17日-18日在上海圆满举行。腾讯 SNG 助理总经理、GOPS 金牌讲师赵建春老师受邀出席大会,并带来精彩演讲《AI 浪潮下的高效运维思考与实践》。本文根据此演讲实录整理而成。
AI 是如何工作的?
抽丝剥茧,找出规律
运维工作中存在大量有规律的数据,要能准确预测数据的走势,我们要找到运维数据的规律,并建立模型。
AI和机器学习的分类
传统的异常指标分析方法有阀值、同比环比等,这些方法依靠大量的人力配置,随着数据量和指标量的增加,根本无法满足我们对数据精细化分析的要求。在智能运维时代,更多分析策略和手段被引入。
监督学习和样本标注
运维常常需要与很多业务KPI数据打交道,结合样本标注的有监督学习分析法对此类数据的异常识别效果显著。
损失函数及常见损失函数
损失函数是度量算法准确率的重要指标,损失函数越小,代表机器学习算法的精准度越高。
常见算法的工作机制
目前行业内流行的机器学习算法,绝大部分是源自于十大经典机器学习算法,而运用在智能运维领域,以分类算法居多。
NLP简介
在运维场景中,还有些需要与自然语言处理打交道的场景,下文介绍织云舆情监控实践中,会有NLP的案例。
AI 和运维工作结合的思考
对运维和AI技术结合点的思考
自动化运维是当下热门的话题,但是要真正意义上实现无人运维,与无人驾驶技术类似,还需要更多积累。但是基于有监督学习的数据分析和基于规则的运维自动化,则有很多可以突破的场景。
寻找与AI结合的运维场景
与腾讯的AI in All战略类似,智能运维的落地要找准场景,这样更能事半功倍的达到我们想要的效果。
分类算法应用
专业的人做专业的事,运维人员是运维领域的专家,可以利用自身丰富的运维工作经验,找到最合适的场景,并协同AI专家找到最恰当的算法,来解决该运维场景的分析难题。
运维和AI可能的结合点
通过腾讯SNG多年的运维经验,得出以下多个机器学习与运维结合的场景点,下面将以几个案例简述下我们已经取得的一些技术突破。
腾讯织云的一些实践案例
Monitor智能监控
织云Monitor监控平台,是基于时序数据的智能监控平台。使用125W个监控点形成的125W个视频对腾讯SNG的业务进行监控。面对的挑战是数据量级大、监控曲线各异、数据政府样板不平衡。
去除干扰,找到准确的异常数据点,对问题或故障进行告警,是运维团队迫切要解决的难题。
多维智能监控
应用运行的日志数据通常包含多个维度的信息,倘若运维能高效的分析这些多维度的数据,对快速识别服务异常和提升排障效率的帮助极大。
关联告警智能分析
随着分布式和微服务技术的普及,架构的复杂度决定了关联监控告警分析的复杂度,在腾讯SNG海量的运维挑战下,关联告警智能分析的实践经验如下。
智能运维客服
智能匹配FAQ库,机器人客服对常见问题给出最准确的答案,或给出相关度Top5的问题链接。在腾讯SNG的运维实践中,我们整理出常见的FAQ知识库,并结合NLP技术实现智能客服的功能。让运维人员可以免受小白问题的打扰,极大的提升了运维团队的工作效率。
基于文本投诉的舆情监控系统
织云舆情监控系统——天王星,是运维团队与开发、产品团队合作的产品,通过对用户反馈的自然语言的智能分析,对文本问题进行自动归类,准确率接近95%。并且,按问题类别实现分钟级告警的能力。
分享中大量腾讯SNG的运维实践经验与技术,即将在由赵建春老师带领的织云产品对外输出,敬请关注!
最后,借用腾讯SNG助理总经理赵建春老师的演讲结语:
理想的AI运维就像无人驾驶一样
似乎离我们还很远
但通过不断的进步
我们坚信
它, 一定会到来
PPT中干货满满,文中只截取了部分
欢迎大家扫码下载
《AI浪潮下的高效运维思考及实践》
本文转自 憬薇 51CTO博客,原文链接:http://blog.51cto.com/welcomeweb/2044169