本文根据2024云栖大会实录整理而成,演讲信息如下:
演讲人:
钟炯恩 | 阿里云智能集团运维专家
张颖莹 | 阿里云智能集团算法专家
活动:
2024 云栖大会 AI+ 可观测专场 - 智能运维:云原生大规模集群 GitOps 实践
近年来,AIOps 已成为 IT 运维市场的重要发展方向之一,各种技术层出不穷,但在应对大规模运维场景时仍显力不从心。面对越来越大的运维规模,大家都在关注是否有同时兼顾稳定性、成本和效率的运维方案来应对集群管理的复杂性。
云原生大规模集群场景的 GitOps 方案重磅发布
阿里云大数据运维团队运维专家钟炯恩在分享中提出:基于 OAM 云原生模型,可以实现研发与运维人员的关注点分离,使得不同角色的人员能在同一个工程中进行代码以及交付的协作,进而完成完整的云原生开发与部署。基于快捷且清晰的云原生运维管理方案,该研发及运维团队支撑了每天500+次的云原生部署。
在完整的云原生方案之上,阿里云大数据运维团队在调研业界的常见 GitOps 方案之后,落地了一套适合大规模集群场景的 GitOps 方案。该方案同时兼顾了变更的过程管理和终态管理,实现了变更的自动化、代码化、透明化。GitOps 实现中关键细节在于基于自研的 IaC 语法,将 git diff 自动转换成变更计划。
GitOps 在智能运维领域的关键作用:收敛运维的操作入口,提供大模型优化的操作平面。同时钟炯恩强调,智能运维是在已有的运维方案支持了稳定性、成本、效率需求之后的锦上添花之举,如果基础运维能力构筑不扎实就引入智能运维,很容易引发更大稳定性风险。
大模型在大数据智能运维的应用实践
随着大模型技术的演进,大模型技术智能运维领域带来了前所未有的推动力。经过八年的深耕,阿里云大数据团队在智能运维领域积累了丰富应用场景。
阿里云计算平台算法专家张颖莹分享了大模型在大数据智能运维的应用实践,从大数据运维的业务背景出发,主要聚焦于两大核心议题:智能问答和智能诊断。
在智能问答场景中,引入了检索增强生成(RAG)方法,有效解决了大模型应用中的幻觉问题和知识更新缓慢问题。同时在知识构建和检索阶段实施了多项优化,包括多粒度知识抽取框架和 RAG On Graph 算法,极大提高了知识关联性和检索精度。
智能诊断方面,张颖莹介绍基于多智能体框架的平台诊断系统。为了模拟现实中故障应急团队的协作模式,引入了智能体 Agent 的概念,使大模型具备更高的主观能动性和灵活性,并根据系统模块完成了 Agent 的角色设定。而 Agent 的工具箱中则整合了指标异常检测、日志异常检测和历史故障学习等核心工具,实现了高效的数据分析和决策支持。此外,通过设计模拟神经网络反馈机制的工作流,可以确保各模块智能体有效协同,减少信息不对称和误差累积,最终由系统 Agent 综合分析并给出诊断结论。
在工程架构层面,如何构建合理框架以保障大模型应用的时效性和稳定性,涵盖数据层、算法服务层及大模型服务层的高效组织和管理是重中之重。团队通过解耦工具开发与 Agent 开发,实现算法复用和本地到云端的无缝部署,增强了可观测性和开发效率,为大模型的持续优化和规模化应用奠定了坚实基础。
总结而言,阿里云大数据运维团队通过智能问答和智能诊断的实践,展示了大模型在智能运维领域的巨大潜力,不仅提升了运维效率和问题解决能力,也为行业提供了宝贵的实践经验和技术启示。未来,团队将继续在模型能力强化、人机交互优化、工作流编排灵活性及大模型运维流程自动化等方面进行探索,推动智能运维技术的边界拓展,促进更多创新成果的诞生与分享。