AI 场景下如何构建运维的标准化能力?SOMA 智能运维计划发布 | 2024 龙蜥大会

简介: 欢迎加入龙蜥社区系统运维联盟(SOMA) 智能运维计划。

8 月 30 日,2024 龙蜥操作系统大会(OpenAnolis Conference)在北京盛大召开。 与此同时,由龙蜥社区运营委员会副主席、龙腾计划生态负责人金美琴,阿里云智能集团高级技术专家毛文安,云杉网络 VP 向阳联合出品的系统运维联盟闭门会也圆满举办。本次闭门会上,来自云杉网络、阿里云、信通院、浪潮信息、凝思软件、中科院、基流科技、必示科技以及北京邮电大学等企业和高校的 14 位大咖,聚焦 AI 场景下如何构建与提升运维的标准化能力,共同探讨当前智算运维在落地过程中的难题及合作路径。会上也隆重举行了 SOMA 智能运维计划发起仪式,龙蜥社区理事长马涛也参与了该计划的讨论和发起。

(图/SOMA智能运维计划发起合照)


会议伊始,龙蜥社区技术委员会主席杨勇开场致辞。杨勇指出,未来,中国有两大机遇,一个机遇是 CentOS 的国产替代,让国内的一些操作系统生态能够被更多的人认可。另外一个机遇就是 AI 的基础设施建设。从千卡集群到万卡集群,规模越来越大,将来的推理也会有更多的应用,而且它是基于天然的云原生的分布式系统去部署这些应用,这就需要有强大的智能运维能力。同时也希望更多企业和个人加入到系统运维联盟的智能运维计划,抓住这个千载难逢的 AI 机遇。

(图/杨勇)


闭门会上,云杉网络 VP 向阳分享了主题为《AI 基础设施需要什么样的可观测性》的演讲。向阳分析了 AI 训练和推理面临的基础设施稳定性和可靠性需求,总结了传统可观测性工具的痛点和缺陷,分享了 DeepFlow 使用 eBPF 技术在 AI 基础设施可观测性方面进行的探索和实践,介绍了使用 eBPF 能够实现的全栈智算可观测性效果,并分享了 DeepFlow 在国内头部券商企业通义千问智算集群中的落地实践。

(图/向阳)


阿里云智能集团技术专家、龙蜥社区系统运维 SIG Maintainer 陈诗雁做了《基于 LLM Agent 的 SysOM 智能诊断机器人》主题分享。陈诗雁介绍了系统运维的现状和难点、智能对话机器人的发展、大模型在系统运维的应用、基于大模型智能体的诊断机器人设计,并演示了 SysOM 智能诊断机器人。智能机器人和运维平台是相辅相成的关系,运维平台的诊断能力成就了智能机器人解决实际问题的能力,智能机器人帮助运维平台更好地发挥和展示运维能力。

(图/陈诗雁)


本次闭门会上,现场嘉宾针对“大模型+运维:标准化方向探索”、“运维 for AI:如何让 LLM 基础设施更高效”、“AI for 运维:如何让运维更智能”等当下热门话题展开讨论。现场交流异常热烈,嘉宾们纷纷给出了他们的建议和看法。龙蜥社区标准化 SIG 董翰文主持讨论“大模型+运维:标准化方向探索”,邀请嘉宾分享自己眼中的智能运维,其发展方向和标准化工作发表看法。中国信通院云计算与大数据研究所高级业务主管王海清认为框架类标准能有效提升用户对智能运维的认知,引领和促进整个行业的发展。中国科学院计算机网络信息中心副研究员裴昶华认为协同是标准的重要作用,数据格式、交互接口、标准化模块等都是现在智能运维需要的标准方向。龙蜥社区系统运维 SIG 负责人毛文安表示标准化的工作极为重要,智能运维涉及到指标采集和分析加工等方方面面。当前,业界也相当迫切地需要一套标准化的评测和打分流程。浪潮信息首席工程师、人工智能算法研究员李峰指出智能运维底层就是“三自”的智能系统,即自组织、自适应、自学习。数据语义标准是智能运维标准需要的方向。凝思软件解决方案总监田辉表示,数据集和评测标准是目前智能运维所需的标准,但是不同领域中运维的关注重点不同,这加大了智能运维标准制定的难度。


云杉网络 VP 向阳主持“运维 for AI:如何让 LLM 基础设施更高效”话题。嘉宾们就自己在 LLM 基础设施性能优化和稳定性保障方面的工作进行了介绍,从基础设施供应商、科研院校、操作系统内核开源社区不同的视角分享了 LLM 基础设施的高性能和稳定性需求。基流科技研发 VP 陈维介绍了基流科技在搭建网卡集群过程中积累下来的行之有效的性能和稳定性保障机制,并对未来 AIOps 赋能从而进一步降低运维成本表达了非常积极的预期。北京邮电大学博士研究生刘克非表示智算网络对整个 LLM 基础设施的稳定性和性能所发挥着至关重要的作用。龙蜥社区跟踪诊断技术 SIG Maintainer 陆扬介绍了龙蜥在 eBPF GPU Profiling、PyTorch Profiling 等方面的探索,并分享了龙蜥社区未来一年的亮眼 Milestone。


“AI for 运维:如何让运维更智能话题”必示科技产品总监温希道主持,就 AIOPS 这么多年的 good case 和 bad case、未来可能出现的 good case 和怎么去走向更大量的 good case 和嘉宾做了深入的探讨。龙蜥社区系统运维联盟主席冯富秋结合历史对大模型现状进行了分析, 表示当年深度神经网络得益于对垂直领域的研究(图像卷积、音频梅尔倒频谱等)效果得到显著的改进, 大模型基础模型也需要结合垂直领域特征进行增强。阿里云智能集团技术专家陈诗雁分享了大模型的知识检索和知识沉淀对于智能运维工作的帮助,通过大模型进一步提升运维效率。但他也提到,大模型当前存在信任问题,或许建立权威的评测手段可以帮助我们实现这一点。浪潮信息运维专家张鹏将目光更多地放在服务器的单机可用性和集群可用性上,他结合自身经验分享了大模型的回答出现错误的问题,并表示,无论是大模型还是小模型,解决监控失误、诊断失准、预测时效和可解释性的问题都迫在眉睫。


(图/圆桌讨论环节嘉宾发言)


值得一提的是,会上,龙蜥社区联合系统运维联盟生态合作伙伴,共同发起了“SOMA 智能运维计划”,该计划分成四个部分:第一智能运维标准和评测系统的建立;第二搭建一个运维知识库,第三搭建联盟的智能运维机器人,第四解决在 AI 场景和架构下性能问题。龙蜥社区系统运维联盟诚挚地邀请广大企业、专家以及高校老师一起畅想、落实该计划。

感谢本次闭门会出品团队:金美琴、向阳、毛文安、刘寅、董翰文、卫硕、贺迪、李会佳。

视频回放、课件获取:

「系统运维联盟闭门会」直播回放及技术 PPT上线啦,欢迎点击下方链接观看~

回放链接:https://openanolis.cn/video/#983718373609714341

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

—— 完 ——


相关文章
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
当无人机遇上Agentic AI:新的应用场景及挑战
本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战
111 5
当无人机遇上Agentic AI:新的应用场景及挑战
|
20天前
|
人工智能 运维 安全
基于合合信息开源智能终端工具—Chaterm的实战指南【当运维遇上AI,一场效率革命正在发生】
在云计算和多平台运维日益复杂的今天,传统命令行工具正面临前所未有的挑战。工程师不仅要记忆成百上千条操作命令,还需在不同平台之间切换终端、脚本、权限和语法,操作效率与安全性常常难以兼顾。尤其在多云环境、远程办公、跨部门协作频繁的背景下,这些“低效、碎片化、易出错”的传统运维方式,已经严重阻碍了 IT 团队的创新能力和响应速度。 而就在这时,一款由合合信息推出的新型智能终端工具——Chaterm,正在悄然颠覆这一现状。它不仅是一款跨平台终端工具,更是业内率先引入 AI Agent 能力 的“会思考”的云资源管理助手。
82 6
|
24天前
|
机器学习/深度学习 人工智能 前端开发
AI+Code驱动的M站首页重构实践:从技术债务到智能化开发
本文分享了阿里巴巴找品M站首页重构项目中AI+Code提效的实践经验。面对M站技术栈陈旧、开发效率低下的挑战,我们通过楼层动态化架构重构和AI智能脚手架,实现了70%首页场景的标准化覆盖 + 30%的非标场景的研发提速,开发效率分别提升90%+与40%+。文章详细介绍了楼层模板沉淀、AI辅助代码生成、智能组件复用评估等核心实践,为团队AI工程能力升级提供了可复制的方法论。
178 15
AI+Code驱动的M站首页重构实践:从技术债务到智能化开发
|
20天前
|
人工智能 监控 算法
基于无人机与AI视觉的矿山盗采智能监测系统技术解析
本文提出融合无人机与AI的三维监管方案。通过全天候视频覆盖、AI车辆识别与行为分析、数据闭环管理及动态算法迭代,实现对矿区24小时智能监控,大幅提升响应效率与监管精度,有效降低人工成本,保障矿区安全。
70 6
|
23天前
|
人工智能 自然语言处理 运维
AI agent跨平台云资源智能管理终端是什么
随着多云架构和混合IT环境的普及,企业面临跨平台资源协同效率低、操作复杂等问题。为此,跨平台云资源智能管理终端应运而生。它通过模块化架构与自动化引擎,将异构云环境中的资源统一管理,并提供对话式交互、批量操作与智能策略编排能力。典型产品如Chaterm,支持自然语言指令输入,实现从任务规划到执行反馈的闭环体验。其应用场景涵盖大规模服务器集群管理、跨云资源调度、复杂环境自动化配置等,显著提升效率与可靠性。实施时需关注兼容性、扩展性及安全性,建议从试点入手逐步推广,优化企业运维流程。
73 5
|
23天前
|
SQL 人工智能 关系型数据库
GitHub 热门!MindsDB 破解 AI + 数据库瓶颈,究竟有什么惊艳亮点?只需 SQL 即可实现智能预测
MindsDB 是一款将 AI 能力直接注入数据库的开源工具,支持 MySQL、PostgreSQL 等多种数据库连接,通过 SQL 即可完成模型训练与预测。它提供 AutoML 引擎、LLM 集成、联邦查询等功能,简化 MLOps 流程,实现数据到智能的无缝衔接。项目在 GitHub 上已获 32.4k 星,社区活跃,适用于客户流失预警、推荐系统、情感分析等场景。开发者无需深入模型细节,即可快速构建智能解决方案。项目地址:https://github.com/mindsdb/mindsdb。
111 0
|
2月前
|
开发框架 人工智能 Java
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
297 40
|
2月前
|
人工智能 数据挖掘
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”