云栖实录 | 智能运维年度重磅发布及大模型实践解读

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 2024云栖大会上重点讨论了云原生大规模集群的 GitOps 实践和大模型在大数据智能运维中的应用。基于 OAM 云原生模型的运维管理系统促进了研发与运维人员之间的协作,支持高频率的云原生部署。大规模集群场景开发的 GitOps 方案实现了变更的自动化、代码化和透明化。大模型在智能问答和智能诊断方面通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了知识关联性和检索精度,同时基于多智能体框架建立了高效的数据分析和决策支持系统。

本文根据2024云栖大会实录整理而成,演讲信息如下:

演讲人:

钟炯恩 | 阿里云智能集团运维专家

张颖莹 | 阿里云智能集团算法专家

活动:

2024 云栖大会 AI+ 可观测专场 - 智能运维:云原生大规模集群 GitOps 实践

近年来,AIOps 已成为 IT 运维市场的重要发展方向之一,各种技术层出不穷,但在应对大规模运维场景时仍显力不从心。面对越来越大的运维规模,大家都在关注是否有同时兼顾稳定性、成本和效率的运维方案来应对集群管理的复杂性。

云原生大规模集群场景的 GitOps 方案重磅发布

阿里云大数据运维团队运维专家钟炯恩在分享中提出:基于 OAM 云原生模型,可以实现研发与运维人员的关注点分离,使得不同角色的人员能在同一个工程中进行代码以及交付的协作,进而完成完整的云原生开发与部署。基于快捷且清晰的云原生运维管理方案,该研发及运维团队支撑了每天500+次的云原生部署。
image.png

在完整的云原生方案之上,阿里云大数据运维团队在调研业界的常见 GitOps 方案之后,落地了一套适合大规模集群场景的 GitOps 方案。该方案同时兼顾了变更的过程管理和终态管理,实现了变更的自动化、代码化、透明化。GitOps 实现中关键细节在于基于自研的 IaC 语法,将 git diff 自动转换成变更计划。
GitOps 在智能运维领域的关键作用:收敛运维的操作入口,提供大模型优化的操作平面。同时钟炯恩强调,智能运维是在已有的运维方案支持了稳定性、成本、效率需求之后的锦上添花之举,如果基础运维能力构筑不扎实就引入智能运维,很容易引发更大稳定性风险。

大模型在大数据智能运维的应用实践

随着大模型技术的演进,大模型技术智能运维领域带来了前所未有的推动力。经过八年的深耕,阿里云大数据团队在智能运维领域积累了丰富应用场景。

image.png

阿里云计算平台算法专家张颖莹分享了大模型在大数据智能运维的应用实践,从大数据运维的业务背景出发,主要聚焦于两大核心议题:智能问答和智能诊断。
在智能问答场景中,引入了检索增强生成(RAG)方法,有效解决了大模型应用中的幻觉问题和知识更新缓慢问题。同时在知识构建和检索阶段实施了多项优化,包括多粒度知识抽取框架和 RAG On Graph 算法,极大提高了知识关联性和检索精度。
智能诊断方面,张颖莹介绍基于多智能体框架的平台诊断系统。为了模拟现实中故障应急团队的协作模式,引入了智能体 Agent 的概念,使大模型具备更高的主观能动性和灵活性,并根据系统模块完成了 Agent 的角色设定。而 Agent 的工具箱中则整合了指标异常检测、日志异常检测和历史故障学习等核心工具,实现了高效的数据分析和决策支持。此外,通过设计模拟神经网络反馈机制的工作流,可以确保各模块智能体有效协同,减少信息不对称和误差累积,最终由系统 Agent 综合分析并给出诊断结论。
在工程架构层面,如何构建合理框架以保障大模型应用的时效性和稳定性,涵盖数据层、算法服务层及大模型服务层的高效组织和管理是重中之重。团队通过解耦工具开发与 Agent 开发,实现算法复用和本地到云端的无缝部署,增强了可观测性和开发效率,为大模型的持续优化和规模化应用奠定了坚实基础。
总结而言,阿里云大数据运维团队通过智能问答和智能诊断的实践,展示了大模型在智能运维领域的巨大潜力,不仅提升了运维效率和问题解决能力,也为行业提供了宝贵的实践经验和技术启示。未来,团队将继续在模型能力强化、人机交互优化、工作流编排灵活性及大模型运维流程自动化等方面进行探索,推动智能运维技术的边界拓展,促进更多创新成果的诞生与分享。

相关文章
|
24天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
16天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
4天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
1天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
201 11
|
19天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
21天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2578 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
3天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
165 2
|
1天前
|
编译器 C#
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
100 65
|
20天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1578 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
4天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
239 2

热门文章

最新文章