线上观看 3 万+!「智能运维MeetUp」精彩回顾,探讨智能体构建新方向

简介: 围绕大模型、可观测性、智能机器人、SysOM 等热门话题,分享系统运维硬核技术、优化实践等干货。

龙蜥社区“走进系列”第 11 期走进中兴通讯-智能可观测运维技术 MeetUp 于成都圆满结束,由中兴通讯联合龙蜥社区系统运维联盟(SOMA)(以下简称“联盟”)共同举办。本次活动现场汇聚了阿里云、谐云科技、乘云数字、中兴通讯、云杉网络、浪潮信息等企业和社区资深技术专家们,围绕大模型、可观测性、智能机器人、SysOM 等热门话题,和我们分享系统运维硬核技术、优化实践等干货,本次活动线上观看人次 3 万+。


(图/活动现场合照)


会议伊始,龙蜥社区系统运维联盟主席冯富秋介绍了本次 MeetUp 的全程安排。他表示龙蜥社区系统运维联盟作为运维技术创新的前沿阵地,承载着双重使命:第一通过强化联盟与各成员单位间的协同合作,打造出运维能力跃升新引擎;第二,致力于制定并推广运维产业标准,为用户提供一盏明灯,让他们清晰洞悉市场运维水准的现状与未来趋势。同时,他也详细介绍了联盟当前的工作进展,强调通过联盟,牵引国内系统运维健康、有序、领先的发展。


(图/冯富秋)


接着,龙蜥社区系统运维联盟副主席、中兴通讯操作系统产品部副部长蒋学鑫表示,作为本次大会的承办单位,中兴通讯持续为联盟的运作提供了资金、服务和技术的支持,在操作系统运维领域积极参与共建,为联盟成员做好服务,助力联盟健康发展。同时,中兴通讯也是龙蜥社区副理事长单位,秉承开发合作,共创共赢的理念积极参与社区建设,力争打造国内社区生态底座,促进社区繁荣发展。

(图/蒋学鑫)


致辞结束后,进入技术分享阶段,9 位技术大咖分享了大模型、智能机器人、可观测性等运维领域的前沿技术。


谐云科技技术总监蒋玉芳就谐云科技在容器化架构下,如何利用可观测技术实现应用性能和资源优化的一些探索进行了分享。她详细阐述了容器环境下应用性能影响的第一性原理,并分析了 CPU、IO、内存在容器环境中对应用性能的影响。蒋玉芳分享了相关的性能优化具体案例和常用的应用性能优化手段,并提到通过 eBPF 技术实现共享指标采集,为应用性能优化以及资源优化提供基础支持。资源优化方面,她介绍了谐云在应用混部方面的实践,讲述了如何利用算法构建应用性能画像,并通过自定义扩展调度、智能 HPA 以及 VPA 等资源优化方案,提升资源利用效率。

(图/蒋玉芳)


企业面对多样化的监控需求,往往采用购买不同专业产品的“数码时代”模式,但这种模式在云原生、微服务、容器化等新技术环境下显得力不从心。杭州乘云数字技术有限公司运营副总裁张怀鹏会上分享了《如何打造开放领先的可观测性数据底座》演讲。乘云数字提出了构建可观测性数据底座的理念,以实现数据融合和自由开发应用。通过统一数据模型和统一组织构建的思路进行设计指导,全面拥抱 OpenTelemetry,确保了与业界生态的紧密接轨。通过 OneGate 高度自动化治理引擎实现多源异构的数据治理。基于自主研发的 MoreDB 和 TracingX ,在时序数据和链路数据的存储处理上降本增效。基于这套开放领先的可观测底座,提升监控数据质量,不断的开拓应用场景,包括但不限于 NGAIOps、IoT、故障预警、云网空间地图等等高级分析能力。可观测底座是打破传统监控孤岛,实现由 IT 进阶到 DT 数据驱动场景分析的必备基建。

(图/张怀鹏)


中兴通讯系统工程师黄军华分享了《组装式 OS 可靠性增强组件实践》。他表示,越来越多的场景对可靠性有更高的要求,如基站、卫星、工业网关、智能汽车等,而当前 Linux 聚焦资源管理机制的实现,不重点关注资源使用策略导致的异常,其主要提供了硬件的可靠性处理,整体上没有体系化的管理手段。同时对于操作系统而言,可组装的定制功能将能在不同的场景下最大化功能价值。面对可靠性增强的需求和挑战,中兴通讯进行了组装式 OS 可靠性增强组件实践,充分覆盖系统各类亚健康事件,并进行对应策略处理,尽可能保障系统的可靠运行,同时提供必要的维测信息,方便后续故障定位。设计上采用可组装思路,利用 ftrace、kprobes 及 eBPF 技术进行功能解耦,可以很好地满足多场景下 OS 可靠性增强需求。

(图/黄军华)


用 AI 实现 Ops 解决运维困境,一直是 IT 界的梦想。DeepFlow 解决方案负责人李飞分享了《零侵扰数据能力,构建可观测性智能体的基石》。他表示,自从以 GPT 为代表的大模型出现之后,用 AI 实现 Ops 解决运维困境的梦想看起来实现近在咫尺,但 AIOps 发展的核心瓶颈是数据。现阶段的运维体系存在大量的数据盲区、数据孤岛、数据关联等问题,运维诊断更多的是依靠经验、猜测、直觉和灵感,而不是依靠数据。数据的问题导致运维诊断工作难以模型化,AIOps 技术发展缓慢。云杉网络开发的 DeepFlow 可观测性平台,聚焦于解决运维数据中的盲区、孤岛等核心问题,通过 eBPF 技术带来的零侵扰、全栈采集能力消除数据盲区,通过 AutoTagging 技术带来的高性能数据统一标注能力消除数据孤岛,以高质量的可观测性数据体系构建基于数据的运维能力,消灭运维中的猜测、直觉和灵感,打造 AIOps 落地应用的稳定基石。DeepFlow 可观测性数据结合大模型 AI 能力,在广泛拓扑分析、海量指标分析、复杂函数性能剖析等运维诊断中已经取得令人惊艳的效果表现。当前, DeepFlow 可观测性平台正在探索全生命周期的 AI 运维技术,探索通过  eBPF 技术将“可观测性+ AI”延伸到包括智能驾驶、智能工厂等更广泛的领域。

(图/李飞)


SysOM 作为社区与阿里云联合推出的开源运维平台产品,针对传统监控场景中用户的痛点以及运维的“碎片化”带来的问题,发布系统健康分和 Livetrace 热点进程分析功能。阿里云产品专家周絮、阿里云高级技术专家毛文安共同分享了《SysOM 健康度和 Livetrace 的评测方法探索》。周絮表示,相比于传统监控指标,健康分旨在分别通过饱和度、延迟、负载和错误形成统一的评分标准来指导用户分层来展示系统健康程度并定位系统健康问题。Livetrace 作为一种先进的操作系统级性能分析方法,能够通过不断地监测操作系统、容器运行环境以及应用程序等多个层次的性能指标,深入揭示整体性能瓶颈。借助 Livetrace,软件的性能管理更加稳健,性能表现的可预测性得到显著提升。毛文安介绍了系统运维联盟的主要工作为建立运维相关的标准以及对业务和运维平台的评测系统。如系统健康度评分标准、网络观测标准、持续剖析 Continues Profiling 标准、北极星指标定界标准;并通过详细分析健康度涉及的资源、性能、错误等聚合指标的四类评测方法。

(图/从左至右:周絮、毛文安)


浪潮电子信息产业股份有限公司产品架构师张鑫分享了《某国有银行大规模带外监控管理技术实践分享》张鑫指出,随着数据中心设备量的不断增大,传统基于带外通道的监控方式面临诸多挑战。为此,他介绍了一种创新的系统架构,即多采集器、多分析器及微服务分布式架构。该架构以资源为作业单位,根据不同类型的作业实施差异化的数据采集与监控周期,从而显著提升了采集效率,降低了系统负载,并有效减少了数据延时。这一创新方案为数据中心的运维管理提供了更加全面、细致的数据支持,充分展现了浪潮电子信息产业股份有限公司在大规模带外监控技术领域的创新实力与丰富经验,也为行业提供了新的发展思路和实践路径。

(图/张鑫)


中兴通讯系统工程师况明富分享了《调测容器实践》。在生产环境中的同一节点上, 通常都承载运行着大量的业务容器,但由于业务镜像大小以及资源限制,业务容器内通常不会预先部署调测工具及环境。这导致一旦容器内部出现问题时,业务容器就缺乏有效的调试工具。另一方面,生产节点的宿主机系统上也往往欠缺必要的调试工具及环境,调试工具的部署和使用受到限制。 为保障问题出现后,快速的部署所需的调试工具及环境,提高调试工具的部署效率,况明富提出了将调测工具打包到一个容器内,以容器的方式完成调试环境的"一键式"部署。 调试容器部署后,即可在调测容器内对业务容器或主机系统上的目标的调测,所有的调测活动都可以在此调测容器中进行,使用完后清理此调测容器即可,这样也可避免对主机环境产生污染。这种基于容器的调试方式和策略不仅提高了问题诊断的速度和效率,同时也减少了对生产环境的影响,体现了中兴通讯在容器技术和运维实践方面的先进理念和技术实力。

(图/况明富)


阿里云技术专家陈诗雁分享了《基于 LLM Agent 的智能诊断机器人》。智能运维是运维技术发展的必然趋势,智能运维机器人可以把问题、告警处理流程、知识库、诊断工具等融合在一起,给运维人员更好的运维体验,高效协助运维人员诊断和解决问题。陈诗雁介绍了系统运维的现状和难点、智能对话机器人的发展、大模型在系统运维的应用、基于大模型智能体的诊断机器人设计,并演示了 SysOM 智能诊断机器人。智能机器人和运维平台是相辅相成的关系,运维平台的诊断能力成就了智能机器人解决实际问题的能力,智能机器人帮助运维平台更好地发挥和展示运维能力。

(图/陈诗雁)


除了硬核技术和实践案例分享外,现场还准备了精美茶歇和伴手礼:


最后,感谢本次活动各位嘉宾的精彩演讲,也感谢中兴通讯及龙蜥社区伙伴成员:徐立锋、杨光、胡捷、李康雅、毛文安、金美琴、蔡佳丽、刘寅、孙林林、林莉、池福睿、陈昊楠、陈晓源、冯艳、刘洪村、李鹏、李兴、刘家瑜、宋梦芝、解潞丹、周峻苇、王天助、袁艳桃(以上排名不分先后)等人的组织与配合,也特别感谢 DeepFlow 社区、乘云数字、51CTO、阅码场等媒体/企业对本次活动直播的支持,有各位的辛苦付出,使得 MeetUp 活动圆满结束。


课件、视频获取

本次活动技术 PPT 已上传,关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。视频回放将会尽快上传至龙蜥官网(动态-视频-龙蜥MeetUp)。

—— 完 ——

相关文章
|
14天前
|
人工智能 运维 安全
基于合合信息开源智能终端工具—Chaterm的实战指南【当运维遇上AI,一场效率革命正在发生】
在云计算和多平台运维日益复杂的今天,传统命令行工具正面临前所未有的挑战。工程师不仅要记忆成百上千条操作命令,还需在不同平台之间切换终端、脚本、权限和语法,操作效率与安全性常常难以兼顾。尤其在多云环境、远程办公、跨部门协作频繁的背景下,这些“低效、碎片化、易出错”的传统运维方式,已经严重阻碍了 IT 团队的创新能力和响应速度。 而就在这时,一款由合合信息推出的新型智能终端工具——Chaterm,正在悄然颠覆这一现状。它不仅是一款跨平台终端工具,更是业内率先引入 AI Agent 能力 的“会思考”的云资源管理助手。
60 6
|
3月前
|
运维 监控 数据可视化
一文拆解 YashanDB Cloud Manager,数据库运维原来还能这么“智能”!
传统数据库运维依赖人工,耗时耗力还易出错。YashanDB Cloud Manager(YCM)作为“智能运维管家”,实现主动、智能、可视化的运维体验。它提供实时资源监控、智能告警系统、自动巡检机制、高可用架构支持和强大的权限管理功能,帮助用户统一管理多实例与集群,减少人工干预,构建现代化数据库运维体系,让企业高效又安心地运行数据库服务。
|
4月前
|
人工智能 运维 安全
AI大模型运维开发探索第四篇:智能体分阶段演进路线
本文探讨了智能体工程的演进历程,从最初的思维链(智能体1.0)到实例化智能体(智能体2.0),再到结构化智能体(智能体3.0),最终展望了自演进智能体(智能体4.0)。文章详细分析了各阶段遇到的问题及解决策略,如工具调用可靠性、推理能力提升等,并引入了大模型中间件的概念以优化业务平台与工具间的协调。此外,文中还提到了RunnableHub开源项目,为读者提供了实际落地的参考方案。通过不断迭代,智能体逐渐具备更强的适应性和解决问题的能力,展现了未来AI发展的潜力。
|
3月前
|
消息中间件 运维 监控
智能运维,由你定义:SAE自定义日志与监控解决方案
通过引入 Sidecar 容器的技术,SAE 为用户提供了更强大的自定义日志与监控解决方案,帮助用户轻松实现日志采集、监控指标收集等功能。未来,SAE 将会支持 istio 多租场景,帮助用户更高效地部署和管理服务网格。
318 51
|
2月前
|
人工智能 运维 Anolis
|
3月前
|
数据采集 人工智能 运维
深度探讨操作系统运维、软件选型等社区标准,龙蜥标准化 SIG MeetUp 圆满举办
围绕软件选型、操作系统运维、RISC-V 三个方向的社区标准进行了分享与讨论。
深度探讨操作系统运维、软件选型等社区标准,龙蜥标准化 SIG MeetUp 圆满举办
|
3月前
|
机器学习/深度学习 人工智能 运维
AI为网络可靠性加“稳”——从断网烦恼到智能运维
AI为网络可靠性加“稳”——从断网烦恼到智能运维
158 2
|
4月前
|
存储 人工智能 运维
idc机房智能运维解决方案
华汇数据中心一体化智能运维方案应运而生,以“自主可控、精准洞察、智能决策”三大核心能力,助力企业实现运维效率提升与综合成本下降的数字化转型目标。
241 24
|
4月前
|
Prometheus 运维 监控
运维实战来了!如何构建适用于YashanDB的Prometheus Exporter
今天分享的是构建YashanDB Exporter的核心设计理念和关键方法,希望也能为你的运维实战加分!