云栖实录 | 智能运维年度重磅发布及大模型实践解读

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 阿里云大数据运维团队重磅发布云原生大规模集群场景的 GitOps 方案,该方案基于 OAM 云原生模型,促进研发与运维人员协作,同时兼顾变更的过程管理和终态管理,可实现变更的自动化、代码化、透明化。此外,阿里云大数据运维团队分享了大模型在大数据智能运维场景的应用实践,通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了在智能问答和智能诊断方面知识的关联性和检索精度,并基于多智能体框架建立高效的数据分析和决策支持系统。

本文根据2024云栖大会实录整理而成,演讲信息如下:

演讲人:

钟炯恩 | 阿里云智能集团运维专家

张颖莹 | 阿里云智能集团算法专家

活动:

2024 云栖大会 AI+ 可观测专场 - 智能运维:云原生大规模集群 GitOps 实践

近年来,AIOps 已成为 IT 运维市场的重要发展方向之一,各种技术层出不穷,但在应对大规模运维场景时仍显力不从心。面对越来越大的运维规模,大家都在关注是否有同时兼顾稳定性、成本和效率的运维方案来应对集群管理的复杂性。

云原生大规模集群场景的 GitOps 方案重磅发布

阿里云大数据运维团队运维专家钟炯恩在分享中提出:基于 OAM 云原生模型,可以实现研发与运维人员的关注点分离,使得不同角色的人员能在同一个工程中进行代码以及交付的协作,进而完成完整的云原生开发与部署。基于快捷且清晰的云原生运维管理方案,该研发及运维团队支撑了每天500+次的云原生部署。
image.png

在完整的云原生方案之上,阿里云大数据运维团队在调研业界的常见 GitOps 方案之后,落地了一套适合大规模集群场景的 GitOps 方案。该方案同时兼顾了变更的过程管理和终态管理,实现了变更的自动化、代码化、透明化。GitOps 实现中关键细节在于基于自研的 IaC 语法,将 git diff 自动转换成变更计划。
GitOps 在智能运维领域的关键作用:收敛运维的操作入口,提供大模型优化的操作平面。同时钟炯恩强调,智能运维是在已有的运维方案支持了稳定性、成本、效率需求之后的锦上添花之举,如果基础运维能力构筑不扎实就引入智能运维,很容易引发更大稳定性风险。

大模型在大数据智能运维的应用实践

随着大模型技术的演进,大模型技术智能运维领域带来了前所未有的推动力。经过八年的深耕,阿里云大数据团队在智能运维领域积累了丰富应用场景。

image.png

阿里云计算平台算法专家张颖莹分享了大模型在大数据智能运维的应用实践,从大数据运维的业务背景出发,主要聚焦于两大核心议题:智能问答和智能诊断。
在智能问答场景中,引入了检索增强生成(RAG)方法,有效解决了大模型应用中的幻觉问题和知识更新缓慢问题。同时在知识构建和检索阶段实施了多项优化,包括多粒度知识抽取框架和 RAG On Graph 算法,极大提高了知识关联性和检索精度。
智能诊断方面,张颖莹介绍基于多智能体框架的平台诊断系统。为了模拟现实中故障应急团队的协作模式,引入了智能体 Agent 的概念,使大模型具备更高的主观能动性和灵活性,并根据系统模块完成了 Agent 的角色设定。而 Agent 的工具箱中则整合了指标异常检测、日志异常检测和历史故障学习等核心工具,实现了高效的数据分析和决策支持。此外,通过设计模拟神经网络反馈机制的工作流,可以确保各模块智能体有效协同,减少信息不对称和误差累积,最终由系统 Agent 综合分析并给出诊断结论。
在工程架构层面,如何构建合理框架以保障大模型应用的时效性和稳定性,涵盖数据层、算法服务层及大模型服务层的高效组织和管理是重中之重。团队通过解耦工具开发与 Agent 开发,实现算法复用和本地到云端的无缝部署,增强了可观测性和开发效率,为大模型的持续优化和规模化应用奠定了坚实基础。
总结而言,阿里云大数据运维团队通过智能问答和智能诊断的实践,展示了大模型在智能运维领域的巨大潜力,不仅提升了运维效率和问题解决能力,也为行业提供了宝贵的实践经验和技术启示。未来,团队将继续在模型能力强化、人机交互优化、工作流编排灵活性及大模型运维流程自动化等方面进行探索,推动智能运维技术的边界拓展,促进更多创新成果的诞生与分享。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3天前
|
运维 监控 前端开发
Zabbix告警分析新革命:DeepSeek四大创新场景助力智能运维
面对日益复杂的IT环境,高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用,包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本,展示了如何提升故障排查效率,为运维工程师提供高效解决方案。
60 5
|
4天前
|
存储 运维 监控
云服务运维智能时代:阿里云操作系统控制台
阿里云操作系统控制台是一款创新的云服务器运维工具,采用智能化和可视化方式简化运维工作。通过AI技术实时监控服务器状态,自动分析性能瓶颈和故障原因,生成详细的诊断报告与优化建议。用户无需复杂命令行操作,仅需通过图形化界面即可高效处理问题,降低技术门槛并提升故障处理效率。尤其在服务器宕机等紧急情况下,智能诊断工具能快速定位问题根源,确保业务稳定运行。此外,控制台还提供内存、存储、网络等专项诊断功能,帮助用户全面了解系统资源使用情况,进一步优化服务器性能。这种智能化运维方式不仅提升了工作效率,也让个人开发者和企业用户能够更专注于核心业务的发展。
|
5天前
|
弹性计算 运维 监控
基于进程热点分析与系统资源优化的智能运维实践
智能服务器管理平台提供直观的可视化界面,助力高效操作系统管理。核心功能包括运维监控、智能助手和扩展插件管理,支持系统健康监控、故障诊断等,确保集群稳定运行。首次使用需激活服务并安装管控组件。平台还提供进程热点追踪、性能观测与优化建议,帮助开发人员快速识别和解决性能瓶颈。定期分析和多维度监控可提前预警潜在问题,保障系统长期稳定运行。
48 17
|
12天前
|
消息中间件 运维 安全
云消息队列 ApsaraMQ Serverless 演进:高弹性低成本、更稳定更安全、智能化免运维
云消息队列 ApsaraMQ Serverless 演进:高弹性低成本、更稳定更安全、智能化免运维
|
12天前
|
运维 Kubernetes Cloud Native
云栖实录 | 智能运维:云原生大规模集群GitOps实践
云栖实录 | 智能运维:云原生大规模集群GitOps实践
|
2月前
|
Linux 持续交付 调度
HTTPS 证书自动化运维:https证书管理系统-自动化部署
本指南介绍如何部署Linux服务器节点。首先复制生成的Linux脚本命令,然后将其粘贴到目标服务器上运行。接着刷新页面查看节点记录,并点击“配置证书”选择证书以自动部署。最后,节点部署完成,后续将自动调度,无需人工干预。
HTTPS 证书自动化运维:https证书管理系统-自动化部署
|
2月前
|
监控 运维
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
|
2月前
|
运维
HTTPS 证书自动化运维:https证书管理系统之自动化签发
通过访问【https://www.lingyanspace.com】注册账户,进入证书服务菜单并新增证书。填写域名(单域名、多域名或泛域名),创建订单后添加云解析DNS记录进行质检。确认完成后可下载证书,并支持后续查看、更新和定时更新功能。证书过期前15天自动更新,需配置邮箱接收通知。
HTTPS 证书自动化运维:https证书管理系统之自动化签发
|
2月前
|
Kubernetes Java 持续交付
小团队 CI/CD 实践:无需运维,Java Web应用的自动化部署
本文介绍如何使用GitHub Actions和阿里云Kubernetes(ACK)实现Java Web应用的自动化部署。通过CI/CD流程,开发人员无需手动处理复杂的运维任务,从而提高效率并减少错误。文中详细讲解了Docker与Kubernetes的概念,并演示了从创建Kubernetes集群、配置容器镜像服务到设置GitHub仓库Secrets及编写GitHub Actions工作流的具体步骤。最终实现了代码提交后自动构建、推送镜像并部署到Kubernetes集群的功能。整个过程不仅简化了部署流程,还确保了应用在不同环境中的稳定运行。
97 9
|
2月前
|
人工智能 运维 监控
AI辅助的运维流程自动化:实现智能化管理的新篇章
AI辅助的运维流程自动化:实现智能化管理的新篇章
663 22

热门文章

最新文章