腾讯赵建春:AI浪潮下的高效运维思考及实践

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介:

GOPS 全球运维大会暨首届金牌运维峰会于11月17日-18日在上海圆满举行。腾讯 SNG 助理总经理、GOPS 金牌讲师赵建春老师受邀出席大会,并带来精彩演讲《AI 浪潮下的高效运维思考与实践》。本文根据此演讲实录整理而成。

AI 是如何工作的?

抽丝剥茧,找出规律

运维工作中存在大量有规律的数据,要能准确预测数据的走势,我们要找到运维数据的规律,并建立模型。

AI和机器学习的分类

传统的异常指标分析方法有阀值、同比环比等,这些方法依靠大量的人力配置,随着数据量和指标量的增加,根本无法满足我们对数据精细化分析的要求。在智能运维时代,更多分析策略和手段被引入。

监督学习和样本标注
运维常常需要与很多业务KPI数据打交道,结合样本标注的有监督学习分析法对此类数据的异常识别效果显著。

损失函数及常见损失函数

损失函数是度量算法准确率的重要指标,损失函数越小,代表机器学习算法的精准度越高。

常见算法的工作机制
目前行业内流行的机器学习算法,绝大部分是源自于十大经典机器学习算法,而运用在智能运维领域,以分类算法居多。

NLP简介
在运维场景中,还有些需要与自然语言处理打交道的场景,下文介绍织云舆情监控实践中,会有NLP的案例。

AI 和运维工作结合的思考

对运维和AI技术结合点的思考

自动化运维是当下热门的话题,但是要真正意义上实现无人运维,与无人驾驶技术类似,还需要更多积累。但是基于有监督学习的数据分析和基于规则的运维自动化,则有很多可以突破的场景。

寻找与AI结合的运维场景

与腾讯的AI in All战略类似,智能运维的落地要找准场景,这样更能事半功倍的达到我们想要的效果。

分类算法应用

专业的人做专业的事,运维人员是运维领域的专家,可以利用自身丰富的运维工作经验,找到最合适的场景,并协同AI专家找到最恰当的算法,来解决该运维场景的分析难题。

运维和AI可能的结合点

通过腾讯SNG多年的运维经验,得出以下多个机器学习与运维结合的场景点,下面将以几个案例简述下我们已经取得的一些技术突破。

腾讯织云的一些实践案例

Monitor智能监控

织云Monitor监控平台,是基于时序数据的智能监控平台。使用125W个监控点形成的125W个视频对腾讯SNG的业务进行监控。面对的挑战是数据量级大、监控曲线各异、数据政府样板不平衡。
去除干扰,找到准确的异常数据点,对问题或故障进行告警,是运维团队迫切要解决的难题。

多维智能监控
应用运行的日志数据通常包含多个维度的信息,倘若运维能高效的分析这些多维度的数据,对快速识别服务异常和提升排障效率的帮助极大。

关联告警智能分析
随着分布式和微服务技术的普及,架构的复杂度决定了关联监控告警分析的复杂度,在腾讯SNG海量的运维挑战下,关联告警智能分析的实践经验如下。

智能运维客服

智能匹配FAQ库,机器人客服对常见问题给出最准确的答案,或给出相关度Top5的问题链接。在腾讯SNG的运维实践中,我们整理出常见的FAQ知识库,并结合NLP技术实现智能客服的功能。让运维人员可以免受小白问题的打扰,极大的提升了运维团队的工作效率。

基于文本投诉的舆情监控系统

织云舆情监控系统——天王星,是运维团队与开发、产品团队合作的产品,通过对用户反馈的自然语言的智能分析,对文本问题进行自动归类,准确率接近95%。并且,按问题类别实现分钟级告警的能力。

分享中大量腾讯SNG的运维实践经验与技术,即将在由赵建春老师带领的织云产品对外输出,敬请关注!

最后,借用腾讯SNG助理总经理赵建春老师的演讲结语:

理想的AI运维就像无人驾驶一样
似乎离我们还很远
但通过不断的进步
我们坚信
它, 一定会到来

PPT中干货满满,文中只截取了部分
欢迎大家扫码下载

《AI浪潮下的高效运维思考及实践》

本文转自    憬薇   51CTO博客,原文链接:http://blog.51cto.com/welcomeweb/2044169


相关文章
|
5天前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
7天前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
34 5
|
4天前
|
运维 负载均衡 Ubuntu
自动化运维的利器:Ansible入门与实践
【10月更文挑战第31天】在当今快速发展的信息技术时代,高效的运维管理成为企业稳定运行的关键。本文将引导读者了解自动化运维工具Ansible的基础概念、安装步骤、基本使用,以及如何通过实际案例掌握其核心功能,从而提升工作效率和系统稳定性。
|
5天前
|
运维 资源调度 监控
提升运维效率的关键技术与实践
在当今快速发展的信息技术时代,运维工作面临着前所未有的挑战和机遇。本文旨在探讨如何通过采用先进的技术和实施最佳实践来提高IT运维的效率和效果。我们将深入分析自动化工具、监控策略、灾难恢复计划以及持续集成/持续部署(CI/CD)等关键领域,展示它们如何协同工作以优化运维流程。此外,文章还将提供一些实际案例研究,帮助读者更好地理解这些概念的应用。无论是对于初创公司还是大型企业,掌握这些技术都将是提升竞争力的关键。
|
11天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
14天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
67 10
|
13天前
|
存储 人工智能 弹性计算
基于《文档智能 & RAG让AI大模型更懂业务》解决方案实践体验后的想法
通过实践《文档智能 & RAG让AI大模型更懂业务》实验,掌握了构建强大LLM知识库的方法,处理企业级文档问答需求。部署文档和引导充分,但需增加资源选型指导。文档智能与RAG结合提升了文档利用效率,但在答案质量和内容精确度上有提升空间。解决方案适用于法律文档查阅、技术支持等场景,但需加强数据安全和隐私保护。建议增加基于容量需求的资源配置指导。
67 4
|
11天前
|
人工智能 JavaScript 前端开发
利用 AI 进行代码生成:GitHub Copilot 的实践与反思
【10月更文挑战第23天】本文探讨了GitHub Copilot,一个由微软和OpenAI合作推出的AI代码生成工具,其核心功能包括智能代码补全、多语言支持、上下文感知和持续学习。文章介绍了Copilot在加速开发流程、学习新语言、提高代码质量和减少重复工作等方面的应用,并反思了AI在代码生成中的代码所有权、安全性和技能发展等问题。最后,文章提供了实施Copilot的最佳实践,强调了在使用AI工具时保持对代码的控制和理解的重要性。
|
15天前
|
人工智能
精通歌词结构技巧:写歌词的方法与实践,妙笔生词AI智能写歌词软件
歌词创作是音乐的灵魂,掌握其结构技巧至关重要。开头需迅速吸引听众,主体部分需结构清晰、情感丰富,结尾则要余韵悠长。无论是叙事还是抒情,妙笔生词智能写歌词软件都能助你一臂之力,提供AI智能创作、优化及解析等多功能支持,助你轻松驾驭歌词创作。
|
14天前
|
运维 应用服务中间件 持续交付
自动化运维的利器:Ansible入门与实践
【10月更文挑战第21天】在现代IT基础设施的管理中,自动化运维已成为提升效率、降低错误率的关键。Ansible,作为一种简单而强大的自动化工具,正被广泛应用于配置管理、应用部署和任务自动化等领域。本文将引导你了解Ansible的基本概念,通过实际案例展示如何利用Ansible简化日常运维工作,并探讨其在现代IT运维中的应用价值。无论你是新手还是有经验的系统管理员,这篇文章都将为你开启Ansible的高效之旅提供指导。