线上观看 3 万+!「智能运维MeetUp」精彩回顾,探讨智能体构建新方向

简介: 围绕大模型、可观测性、智能机器人、SysOM 等热门话题,分享系统运维硬核技术、优化实践等干货。

龙蜥社区“走进系列”第 11 期走进中兴通讯-智能可观测运维技术 MeetUp 于成都圆满结束,由中兴通讯联合龙蜥社区系统运维联盟(SOMA)(以下简称“联盟”)共同举办。本次活动现场汇聚了阿里云、谐云科技、乘云数字、中兴通讯、云杉网络、浪潮信息等企业和社区资深技术专家们,围绕大模型、可观测性、智能机器人、SysOM 等热门话题,和我们分享系统运维硬核技术、优化实践等干货,本次活动线上观看人次 3 万+。


(图/活动现场合照)


会议伊始,龙蜥社区系统运维联盟主席冯富秋介绍了本次 MeetUp 的全程安排。他表示龙蜥社区系统运维联盟作为运维技术创新的前沿阵地,承载着双重使命:第一通过强化联盟与各成员单位间的协同合作,打造出运维能力跃升新引擎;第二,致力于制定并推广运维产业标准,为用户提供一盏明灯,让他们清晰洞悉市场运维水准的现状与未来趋势。同时,他也详细介绍了联盟当前的工作进展,强调通过联盟,牵引国内系统运维健康、有序、领先的发展。


(图/冯富秋)


接着,龙蜥社区系统运维联盟副主席、中兴通讯操作系统产品部副部长蒋学鑫表示,作为本次大会的承办单位,中兴通讯持续为联盟的运作提供了资金、服务和技术的支持,在操作系统运维领域积极参与共建,为联盟成员做好服务,助力联盟健康发展。同时,中兴通讯也是龙蜥社区副理事长单位,秉承开发合作,共创共赢的理念积极参与社区建设,力争打造国内社区生态底座,促进社区繁荣发展。

(图/蒋学鑫)


致辞结束后,进入技术分享阶段,9 位技术大咖分享了大模型、智能机器人、可观测性等运维领域的前沿技术。


谐云科技技术总监蒋玉芳就谐云科技在容器化架构下,如何利用可观测技术实现应用性能和资源优化的一些探索进行了分享。她详细阐述了容器环境下应用性能影响的第一性原理,并分析了 CPU、IO、内存在容器环境中对应用性能的影响。蒋玉芳分享了相关的性能优化具体案例和常用的应用性能优化手段,并提到通过 eBPF 技术实现共享指标采集,为应用性能优化以及资源优化提供基础支持。资源优化方面,她介绍了谐云在应用混部方面的实践,讲述了如何利用算法构建应用性能画像,并通过自定义扩展调度、智能 HPA 以及 VPA 等资源优化方案,提升资源利用效率。

(图/蒋玉芳)


企业面对多样化的监控需求,往往采用购买不同专业产品的“数码时代”模式,但这种模式在云原生、微服务、容器化等新技术环境下显得力不从心。杭州乘云数字技术有限公司运营副总裁张怀鹏会上分享了《如何打造开放领先的可观测性数据底座》演讲。乘云数字提出了构建可观测性数据底座的理念,以实现数据融合和自由开发应用。通过统一数据模型和统一组织构建的思路进行设计指导,全面拥抱 OpenTelemetry,确保了与业界生态的紧密接轨。通过 OneGate 高度自动化治理引擎实现多源异构的数据治理。基于自主研发的 MoreDB 和 TracingX ,在时序数据和链路数据的存储处理上降本增效。基于这套开放领先的可观测底座,提升监控数据质量,不断的开拓应用场景,包括但不限于 NGAIOps、IoT、故障预警、云网空间地图等等高级分析能力。可观测底座是打破传统监控孤岛,实现由 IT 进阶到 DT 数据驱动场景分析的必备基建。

(图/张怀鹏)


中兴通讯系统工程师黄军华分享了《组装式 OS 可靠性增强组件实践》。他表示,越来越多的场景对可靠性有更高的要求,如基站、卫星、工业网关、智能汽车等,而当前 Linux 聚焦资源管理机制的实现,不重点关注资源使用策略导致的异常,其主要提供了硬件的可靠性处理,整体上没有体系化的管理手段。同时对于操作系统而言,可组装的定制功能将能在不同的场景下最大化功能价值。面对可靠性增强的需求和挑战,中兴通讯进行了组装式 OS 可靠性增强组件实践,充分覆盖系统各类亚健康事件,并进行对应策略处理,尽可能保障系统的可靠运行,同时提供必要的维测信息,方便后续故障定位。设计上采用可组装思路,利用 ftrace、kprobes 及 eBPF 技术进行功能解耦,可以很好地满足多场景下 OS 可靠性增强需求。

(图/黄军华)


用 AI 实现 Ops 解决运维困境,一直是 IT 界的梦想。DeepFlow 解决方案负责人李飞分享了《零侵扰数据能力,构建可观测性智能体的基石》。他表示,自从以 GPT 为代表的大模型出现之后,用 AI 实现 Ops 解决运维困境的梦想看起来实现近在咫尺,但 AIOps 发展的核心瓶颈是数据。现阶段的运维体系存在大量的数据盲区、数据孤岛、数据关联等问题,运维诊断更多的是依靠经验、猜测、直觉和灵感,而不是依靠数据。数据的问题导致运维诊断工作难以模型化,AIOps 技术发展缓慢。云杉网络开发的 DeepFlow 可观测性平台,聚焦于解决运维数据中的盲区、孤岛等核心问题,通过 eBPF 技术带来的零侵扰、全栈采集能力消除数据盲区,通过 AutoTagging 技术带来的高性能数据统一标注能力消除数据孤岛,以高质量的可观测性数据体系构建基于数据的运维能力,消灭运维中的猜测、直觉和灵感,打造 AIOps 落地应用的稳定基石。DeepFlow 可观测性数据结合大模型 AI 能力,在广泛拓扑分析、海量指标分析、复杂函数性能剖析等运维诊断中已经取得令人惊艳的效果表现。当前, DeepFlow 可观测性平台正在探索全生命周期的 AI 运维技术,探索通过  eBPF 技术将“可观测性+ AI”延伸到包括智能驾驶、智能工厂等更广泛的领域。

(图/李飞)


SysOM 作为社区与阿里云联合推出的开源运维平台产品,针对传统监控场景中用户的痛点以及运维的“碎片化”带来的问题,发布系统健康分和 Livetrace 热点进程分析功能。阿里云产品专家周絮、阿里云高级技术专家毛文安共同分享了《SysOM 健康度和 Livetrace 的评测方法探索》。周絮表示,相比于传统监控指标,健康分旨在分别通过饱和度、延迟、负载和错误形成统一的评分标准来指导用户分层来展示系统健康程度并定位系统健康问题。Livetrace 作为一种先进的操作系统级性能分析方法,能够通过不断地监测操作系统、容器运行环境以及应用程序等多个层次的性能指标,深入揭示整体性能瓶颈。借助 Livetrace,软件的性能管理更加稳健,性能表现的可预测性得到显著提升。毛文安介绍了系统运维联盟的主要工作为建立运维相关的标准以及对业务和运维平台的评测系统。如系统健康度评分标准、网络观测标准、持续剖析 Continues Profiling 标准、北极星指标定界标准;并通过详细分析健康度涉及的资源、性能、错误等聚合指标的四类评测方法。

(图/从左至右:周絮、毛文安)


浪潮电子信息产业股份有限公司产品架构师张鑫分享了《某国有银行大规模带外监控管理技术实践分享》张鑫指出,随着数据中心设备量的不断增大,传统基于带外通道的监控方式面临诸多挑战。为此,他介绍了一种创新的系统架构,即多采集器、多分析器及微服务分布式架构。该架构以资源为作业单位,根据不同类型的作业实施差异化的数据采集与监控周期,从而显著提升了采集效率,降低了系统负载,并有效减少了数据延时。这一创新方案为数据中心的运维管理提供了更加全面、细致的数据支持,充分展现了浪潮电子信息产业股份有限公司在大规模带外监控技术领域的创新实力与丰富经验,也为行业提供了新的发展思路和实践路径。

(图/张鑫)


中兴通讯系统工程师况明富分享了《调测容器实践》。在生产环境中的同一节点上, 通常都承载运行着大量的业务容器,但由于业务镜像大小以及资源限制,业务容器内通常不会预先部署调测工具及环境。这导致一旦容器内部出现问题时,业务容器就缺乏有效的调试工具。另一方面,生产节点的宿主机系统上也往往欠缺必要的调试工具及环境,调试工具的部署和使用受到限制。 为保障问题出现后,快速的部署所需的调试工具及环境,提高调试工具的部署效率,况明富提出了将调测工具打包到一个容器内,以容器的方式完成调试环境的"一键式"部署。 调试容器部署后,即可在调测容器内对业务容器或主机系统上的目标的调测,所有的调测活动都可以在此调测容器中进行,使用完后清理此调测容器即可,这样也可避免对主机环境产生污染。这种基于容器的调试方式和策略不仅提高了问题诊断的速度和效率,同时也减少了对生产环境的影响,体现了中兴通讯在容器技术和运维实践方面的先进理念和技术实力。

(图/况明富)


阿里云技术专家陈诗雁分享了《基于 LLM Agent 的智能诊断机器人》。智能运维是运维技术发展的必然趋势,智能运维机器人可以把问题、告警处理流程、知识库、诊断工具等融合在一起,给运维人员更好的运维体验,高效协助运维人员诊断和解决问题。陈诗雁介绍了系统运维的现状和难点、智能对话机器人的发展、大模型在系统运维的应用、基于大模型智能体的诊断机器人设计,并演示了 SysOM 智能诊断机器人。智能机器人和运维平台是相辅相成的关系,运维平台的诊断能力成就了智能机器人解决实际问题的能力,智能机器人帮助运维平台更好地发挥和展示运维能力。

(图/陈诗雁)


除了硬核技术和实践案例分享外,现场还准备了精美茶歇和伴手礼:


最后,感谢本次活动各位嘉宾的精彩演讲,也感谢中兴通讯及龙蜥社区伙伴成员:徐立锋、杨光、胡捷、李康雅、毛文安、金美琴、蔡佳丽、刘寅、孙林林、林莉、池福睿、陈昊楠、陈晓源、冯艳、刘洪村、李鹏、李兴、刘家瑜、宋梦芝、解潞丹、周峻苇、王天助、袁艳桃(以上排名不分先后)等人的组织与配合,也特别感谢 DeepFlow 社区、乘云数字、51CTO、阅码场等媒体/企业对本次活动直播的支持,有各位的辛苦付出,使得 MeetUp 活动圆满结束。


课件、视频获取

本次活动技术 PPT 已上传,关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。视频回放将会尽快上传至龙蜥官网(动态-视频-龙蜥MeetUp)。

—— 完 ——

相关文章
|
2天前
|
机器学习/深度学习 存储 数据采集
智能运维:未来趋势与挑战
在数字化时代,运维(Operation and Maintenance)的角色变得越来越重要。随着云计算、大数据和人工智能等技术的发展,智能运维已经成为一种趋势。本文将探讨智能运维的概念、优势以及面临的挑战,并提供一些实施智能运维的建议。
|
2天前
|
运维 Prometheus 监控
自动化运维工具链的构建与实践
【9月更文挑战第4天】在现代IT运维管理中,自动化工具链的搭建是提升效率、保障稳定性的关键。本文将通过一个实际案例,展示如何从零开始构建一套高效的自动化运维体系,涵盖从监控、部署到故障处理的完整流程,并分享实践中的经验教训和成效分析。
17 4
|
2天前
|
机器学习/深度学习 人工智能 运维
自动化运维的演变之路:从脚本到智能
在数字化浪潮中,自动化运维如同一艘船,载着企业乘风破浪。本文将带你穿梭于自动化运维的历史长河,见证它如何从简单的脚本编写,发展成为今天集成了人工智能技术的智能运维平台。我们将探索这一变革背后的原因、影响以及面临的挑战,同时分享一些行业内的成功案例,为你的企业运维之旅提供启示和方向。
|
2天前
|
机器学习/深度学习 人工智能 运维
智能化运维:未来IT管理的革命之路
在数字化浪潮的推动下,企业对IT系统的稳定性和效率要求日益增高。传统的运维模式已难以满足现代业务的需求,智能化运维应运而生。本文将探讨智能化运维的概念、优势以及实施策略,旨在为企业提供一条提升IT管理效能的清晰路径。
21 3
|
4天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI技术在IT管理中的创新应用
本文将探讨如何运用人工智能技术优化IT运维流程,提升效率并减少人为错误。我们将从智能监控、自动化响应到预测性维护等方面,分析AI在现代IT运维中的角色和价值。文章旨在为读者提供一种全新的视角,理解AI技术如何成为IT部门的强大盟友,并指出实施这些技术时可能遇到的挑战及应对策略。
|
10天前
|
机器学习/深度学习 缓存 运维
智能化运维:机器学习在IT管理中的革命性应用
【8月更文挑战第28天】 随着技术的飞速发展,传统的IT运维方式已不能满足现代企业的需求。智能化运维,通过整合机器学习技术,正在重塑我们对IT基础设施的管理方法。本文将探讨智能化运维的概念、实施步骤及其带来的变革,同时分享一些成功案例,以期为读者提供一种全新的视角和思考路径。
36 6
|
12天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维的崛起:AI在IT管理中的应用与挑战
【8月更文挑战第26天】 随着科技的不断进步,人工智能(AI)正逐步渗透到我们的工作和生活中。在IT运维领域,AI技术的引入不仅极大地提高了效率和准确性,还为传统的运维模式带来了颠覆性的变革。本文将探讨AI在IT运维中的应用实例、面临的挑战以及未来的发展方向,旨在为读者提供对智能化运维趋势的深入理解。
|
3天前
|
运维 监控 Devops
DevOps实践:构建高效运维流程
【9月更文挑战第3天】在当今快节奏的技术环境中,高效的运维流程是企业成功的关键。本文旨在揭示如何通过DevOps实践,构建一个既灵活又高效的运维体系。我们将深入探讨自动化工具、持续集成与持续部署(CI/CD)策略以及监控和日志管理的最佳实践,以实现运维工作的优化。文章将用简洁明了的语言,结合生动的比喻,带领读者走进DevOps的世界,学习如何将理论应用到实际工作中去。
|
7天前
|
运维 监控 jenkins
自动化运维实践:构建高效的CI/CD流程
【8月更文挑战第31天】在软件开发的海洋中,持续集成和持续交付(CI/CD)是推动现代开发实践的强大潮流。本文将带你潜入这股潮流之下,探索如何构建一个高效且灵活的自动化运维流程,以提升软件交付的速度与质量。我们将从基础工具的选择到流程设计,再到实际操作的技巧,逐步展开讨论,并结合代码示例,使理论与实践紧密结合。
|
15天前
|
存储 人工智能

热门文章

最新文章

下一篇
DDNS