腾讯赵建春:AI浪潮下的高效运维思考及实践

简介:

GOPS 全球运维大会暨首届金牌运维峰会于11月17日-18日在上海圆满举行。腾讯 SNG 助理总经理、GOPS 金牌讲师赵建春老师受邀出席大会,并带来精彩演讲《AI 浪潮下的高效运维思考与实践》。本文根据此演讲实录整理而成。

AI 是如何工作的?

抽丝剥茧,找出规律

运维工作中存在大量有规律的数据,要能准确预测数据的走势,我们要找到运维数据的规律,并建立模型。

AI和机器学习的分类

传统的异常指标分析方法有阀值、同比环比等,这些方法依靠大量的人力配置,随着数据量和指标量的增加,根本无法满足我们对数据精细化分析的要求。在智能运维时代,更多分析策略和手段被引入。

监督学习和样本标注
运维常常需要与很多业务KPI数据打交道,结合样本标注的有监督学习分析法对此类数据的异常识别效果显著。

损失函数及常见损失函数

损失函数是度量算法准确率的重要指标,损失函数越小,代表机器学习算法的精准度越高。

常见算法的工作机制
目前行业内流行的机器学习算法,绝大部分是源自于十大经典机器学习算法,而运用在智能运维领域,以分类算法居多。

NLP简介
在运维场景中,还有些需要与自然语言处理打交道的场景,下文介绍织云舆情监控实践中,会有NLP的案例。

AI 和运维工作结合的思考

对运维和AI技术结合点的思考

自动化运维是当下热门的话题,但是要真正意义上实现无人运维,与无人驾驶技术类似,还需要更多积累。但是基于有监督学习的数据分析和基于规则的运维自动化,则有很多可以突破的场景。

寻找与AI结合的运维场景

与腾讯的AI in All战略类似,智能运维的落地要找准场景,这样更能事半功倍的达到我们想要的效果。

分类算法应用

专业的人做专业的事,运维人员是运维领域的专家,可以利用自身丰富的运维工作经验,找到最合适的场景,并协同AI专家找到最恰当的算法,来解决该运维场景的分析难题。

运维和AI可能的结合点

通过腾讯SNG多年的运维经验,得出以下多个机器学习与运维结合的场景点,下面将以几个案例简述下我们已经取得的一些技术突破。

腾讯织云的一些实践案例

Monitor智能监控

织云Monitor监控平台,是基于时序数据的智能监控平台。使用125W个监控点形成的125W个视频对腾讯SNG的业务进行监控。面对的挑战是数据量级大、监控曲线各异、数据政府样板不平衡。
去除干扰,找到准确的异常数据点,对问题或故障进行告警,是运维团队迫切要解决的难题。

多维智能监控
应用运行的日志数据通常包含多个维度的信息,倘若运维能高效的分析这些多维度的数据,对快速识别服务异常和提升排障效率的帮助极大。

关联告警智能分析
随着分布式和微服务技术的普及,架构的复杂度决定了关联监控告警分析的复杂度,在腾讯SNG海量的运维挑战下,关联告警智能分析的实践经验如下。

智能运维客服

智能匹配FAQ库,机器人客服对常见问题给出最准确的答案,或给出相关度Top5的问题链接。在腾讯SNG的运维实践中,我们整理出常见的FAQ知识库,并结合NLP技术实现智能客服的功能。让运维人员可以免受小白问题的打扰,极大的提升了运维团队的工作效率。

基于文本投诉的舆情监控系统

织云舆情监控系统——天王星,是运维团队与开发、产品团队合作的产品,通过对用户反馈的自然语言的智能分析,对文本问题进行自动归类,准确率接近95%。并且,按问题类别实现分钟级告警的能力。

分享中大量腾讯SNG的运维实践经验与技术,即将在由赵建春老师带领的织云产品对外输出,敬请关注!

最后,借用腾讯SNG助理总经理赵建春老师的演讲结语:

理想的AI运维就像无人驾驶一样
似乎离我们还很远
但通过不断的进步
我们坚信
它, 一定会到来

PPT中干货满满,文中只截取了部分
欢迎大家扫码下载

《AI浪潮下的高效运维思考及实践》

本文转自    憬薇   51CTO博客,原文链接:http://blog.51cto.com/welcomeweb/2044169


相关文章
|
6月前
|
人工智能 IDE Java
AI Coding实践:CodeFuse + prompt 从系分到代码
在蚂蚁国际信贷业务系统建设过程中,技术团队始终面临双重考验:一方面需应对日益加速的需求迭代周期,满足严苛的代码质量规范与金融安全合规要求;另一方面,跨地域研发团队的协同效率与代码标准统一性,在传统开发模式下逐渐显现瓶颈。为突破效率制约、提升交付质量,我们积极探索人工智能辅助代码生成技术(AI Coding)的应用实践。本文基于蚂蚁国际信贷技术团队近期的实际项目经验,梳理AI辅助开发在金融级系统快速迭代场景中的实施要点并分享阶段性实践心得。
1540 25
AI Coding实践:CodeFuse + prompt 从系分到代码
|
6月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
6月前
|
机器学习/深度学习 人工智能 缓存
AI运维不再是玄学:教你用AI提前预测系统故障,少熬几次夜!
AI运维不再是玄学:教你用AI提前预测系统故障,少熬几次夜!
717 13
|
6月前
|
人工智能 运维 算法
AI来了,运维不慌:教你用人工智能把团队管理提速三倍!
AI来了,运维不慌:教你用人工智能把团队管理提速三倍!
778 8
|
6月前
|
人工智能 新制造
TsingtaoAI受邀参加宁波AI海曙科创训练营并分享技术落地实践
10月12日至15日,由宁波市海曙区组织部主办的AI海曙科创训练营在宁波成功举办。作为受邀企业代表,TsingtaoAI团队深入参与了多项活动,与政府领导、行业专家及科创企业代表围绕AI技术在制造业、成果转化等领域的实际应用展开交流,用真实案例诠释了“技术扎根产业”的价值逻辑。
183 2
|
6月前
|
数据采集 存储 人工智能
从0到1:天猫AI测试用例生成的实践与突破
本文系统阐述了天猫技术团队在AI赋能测试领域的深度实践与探索,讲述了智能测试用例生成的落地路径。
从0到1:天猫AI测试用例生成的实践与突破
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
968 37
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
6月前
|
人工智能 安全 开发工具
C3仓库AI代码门禁通用实践:基于Qwen3-Coder+RAG的代码评审
本文介绍基于Qwen3-Coder、RAG与Iflow在C3级代码仓库落地LLM代码评审的实践,实现AI辅助人工评审。通过CI流水线自动触发,结合私域知识库与生产代码同仓管理,已成功拦截数十次高危缺陷,显著提升评审效率与质量,具备向各类代码门禁平台复用推广的价值。(239字)
1278 24

热门文章

最新文章

下一篇
开通oss服务