线上观看 3 万+!「智能运维MeetUp」精彩回顾,探讨智能体构建新方向

简介: 围绕大模型、可观测性、智能机器人、SysOM 等热门话题,分享系统运维硬核技术、优化实践等干货。

龙蜥社区“走进系列”第 11 期走进中兴通讯-智能可观测运维技术 MeetUp 于成都圆满结束,由中兴通讯联合龙蜥社区系统运维联盟(SOMA)(以下简称“联盟”)共同举办。本次活动现场汇聚了阿里云、谐云科技、乘云数字、中兴通讯、云杉网络、浪潮信息等企业和社区资深技术专家们,围绕大模型、可观测性、智能机器人、SysOM 等热门话题,和我们分享系统运维硬核技术、优化实践等干货,本次活动线上观看人次 3 万+。


(图/活动现场合照)


会议伊始,龙蜥社区系统运维联盟主席冯富秋介绍了本次 MeetUp 的全程安排。他表示龙蜥社区系统运维联盟作为运维技术创新的前沿阵地,承载着双重使命:第一通过强化联盟与各成员单位间的协同合作,打造出运维能力跃升新引擎;第二,致力于制定并推广运维产业标准,为用户提供一盏明灯,让他们清晰洞悉市场运维水准的现状与未来趋势。同时,他也详细介绍了联盟当前的工作进展,强调通过联盟,牵引国内系统运维健康、有序、领先的发展。


(图/冯富秋)


接着,龙蜥社区系统运维联盟副主席、中兴通讯操作系统产品部副部长蒋学鑫表示,作为本次大会的承办单位,中兴通讯持续为联盟的运作提供了资金、服务和技术的支持,在操作系统运维领域积极参与共建,为联盟成员做好服务,助力联盟健康发展。同时,中兴通讯也是龙蜥社区副理事长单位,秉承开发合作,共创共赢的理念积极参与社区建设,力争打造国内社区生态底座,促进社区繁荣发展。

(图/蒋学鑫)


致辞结束后,进入技术分享阶段,9 位技术大咖分享了大模型、智能机器人、可观测性等运维领域的前沿技术。


谐云科技技术总监蒋玉芳就谐云科技在容器化架构下,如何利用可观测技术实现应用性能和资源优化的一些探索进行了分享。她详细阐述了容器环境下应用性能影响的第一性原理,并分析了 CPU、IO、内存在容器环境中对应用性能的影响。蒋玉芳分享了相关的性能优化具体案例和常用的应用性能优化手段,并提到通过 eBPF 技术实现共享指标采集,为应用性能优化以及资源优化提供基础支持。资源优化方面,她介绍了谐云在应用混部方面的实践,讲述了如何利用算法构建应用性能画像,并通过自定义扩展调度、智能 HPA 以及 VPA 等资源优化方案,提升资源利用效率。

(图/蒋玉芳)


企业面对多样化的监控需求,往往采用购买不同专业产品的“数码时代”模式,但这种模式在云原生、微服务、容器化等新技术环境下显得力不从心。杭州乘云数字技术有限公司运营副总裁张怀鹏会上分享了《如何打造开放领先的可观测性数据底座》演讲。乘云数字提出了构建可观测性数据底座的理念,以实现数据融合和自由开发应用。通过统一数据模型和统一组织构建的思路进行设计指导,全面拥抱 OpenTelemetry,确保了与业界生态的紧密接轨。通过 OneGate 高度自动化治理引擎实现多源异构的数据治理。基于自主研发的 MoreDB 和 TracingX ,在时序数据和链路数据的存储处理上降本增效。基于这套开放领先的可观测底座,提升监控数据质量,不断的开拓应用场景,包括但不限于 NGAIOps、IoT、故障预警、云网空间地图等等高级分析能力。可观测底座是打破传统监控孤岛,实现由 IT 进阶到 DT 数据驱动场景分析的必备基建。

(图/张怀鹏)


中兴通讯系统工程师黄军华分享了《组装式 OS 可靠性增强组件实践》。他表示,越来越多的场景对可靠性有更高的要求,如基站、卫星、工业网关、智能汽车等,而当前 Linux 聚焦资源管理机制的实现,不重点关注资源使用策略导致的异常,其主要提供了硬件的可靠性处理,整体上没有体系化的管理手段。同时对于操作系统而言,可组装的定制功能将能在不同的场景下最大化功能价值。面对可靠性增强的需求和挑战,中兴通讯进行了组装式 OS 可靠性增强组件实践,充分覆盖系统各类亚健康事件,并进行对应策略处理,尽可能保障系统的可靠运行,同时提供必要的维测信息,方便后续故障定位。设计上采用可组装思路,利用 ftrace、kprobes 及 eBPF 技术进行功能解耦,可以很好地满足多场景下 OS 可靠性增强需求。

(图/黄军华)


用 AI 实现 Ops 解决运维困境,一直是 IT 界的梦想。DeepFlow 解决方案负责人李飞分享了《零侵扰数据能力,构建可观测性智能体的基石》。他表示,自从以 GPT 为代表的大模型出现之后,用 AI 实现 Ops 解决运维困境的梦想看起来实现近在咫尺,但 AIOps 发展的核心瓶颈是数据。现阶段的运维体系存在大量的数据盲区、数据孤岛、数据关联等问题,运维诊断更多的是依靠经验、猜测、直觉和灵感,而不是依靠数据。数据的问题导致运维诊断工作难以模型化,AIOps 技术发展缓慢。云杉网络开发的 DeepFlow 可观测性平台,聚焦于解决运维数据中的盲区、孤岛等核心问题,通过 eBPF 技术带来的零侵扰、全栈采集能力消除数据盲区,通过 AutoTagging 技术带来的高性能数据统一标注能力消除数据孤岛,以高质量的可观测性数据体系构建基于数据的运维能力,消灭运维中的猜测、直觉和灵感,打造 AIOps 落地应用的稳定基石。DeepFlow 可观测性数据结合大模型 AI 能力,在广泛拓扑分析、海量指标分析、复杂函数性能剖析等运维诊断中已经取得令人惊艳的效果表现。当前, DeepFlow 可观测性平台正在探索全生命周期的 AI 运维技术,探索通过  eBPF 技术将“可观测性+ AI”延伸到包括智能驾驶、智能工厂等更广泛的领域。

(图/李飞)


SysOM 作为社区与阿里云联合推出的开源运维平台产品,针对传统监控场景中用户的痛点以及运维的“碎片化”带来的问题,发布系统健康分和 Livetrace 热点进程分析功能。阿里云产品专家周絮、阿里云高级技术专家毛文安共同分享了《SysOM 健康度和 Livetrace 的评测方法探索》。周絮表示,相比于传统监控指标,健康分旨在分别通过饱和度、延迟、负载和错误形成统一的评分标准来指导用户分层来展示系统健康程度并定位系统健康问题。Livetrace 作为一种先进的操作系统级性能分析方法,能够通过不断地监测操作系统、容器运行环境以及应用程序等多个层次的性能指标,深入揭示整体性能瓶颈。借助 Livetrace,软件的性能管理更加稳健,性能表现的可预测性得到显著提升。毛文安介绍了系统运维联盟的主要工作为建立运维相关的标准以及对业务和运维平台的评测系统。如系统健康度评分标准、网络观测标准、持续剖析 Continues Profiling 标准、北极星指标定界标准;并通过详细分析健康度涉及的资源、性能、错误等聚合指标的四类评测方法。

(图/从左至右:周絮、毛文安)


浪潮电子信息产业股份有限公司产品架构师张鑫分享了《某国有银行大规模带外监控管理技术实践分享》张鑫指出,随着数据中心设备量的不断增大,传统基于带外通道的监控方式面临诸多挑战。为此,他介绍了一种创新的系统架构,即多采集器、多分析器及微服务分布式架构。该架构以资源为作业单位,根据不同类型的作业实施差异化的数据采集与监控周期,从而显著提升了采集效率,降低了系统负载,并有效减少了数据延时。这一创新方案为数据中心的运维管理提供了更加全面、细致的数据支持,充分展现了浪潮电子信息产业股份有限公司在大规模带外监控技术领域的创新实力与丰富经验,也为行业提供了新的发展思路和实践路径。

(图/张鑫)


中兴通讯系统工程师况明富分享了《调测容器实践》。在生产环境中的同一节点上, 通常都承载运行着大量的业务容器,但由于业务镜像大小以及资源限制,业务容器内通常不会预先部署调测工具及环境。这导致一旦容器内部出现问题时,业务容器就缺乏有效的调试工具。另一方面,生产节点的宿主机系统上也往往欠缺必要的调试工具及环境,调试工具的部署和使用受到限制。 为保障问题出现后,快速的部署所需的调试工具及环境,提高调试工具的部署效率,况明富提出了将调测工具打包到一个容器内,以容器的方式完成调试环境的"一键式"部署。 调试容器部署后,即可在调测容器内对业务容器或主机系统上的目标的调测,所有的调测活动都可以在此调测容器中进行,使用完后清理此调测容器即可,这样也可避免对主机环境产生污染。这种基于容器的调试方式和策略不仅提高了问题诊断的速度和效率,同时也减少了对生产环境的影响,体现了中兴通讯在容器技术和运维实践方面的先进理念和技术实力。

(图/况明富)


阿里云技术专家陈诗雁分享了《基于 LLM Agent 的智能诊断机器人》。智能运维是运维技术发展的必然趋势,智能运维机器人可以把问题、告警处理流程、知识库、诊断工具等融合在一起,给运维人员更好的运维体验,高效协助运维人员诊断和解决问题。陈诗雁介绍了系统运维的现状和难点、智能对话机器人的发展、大模型在系统运维的应用、基于大模型智能体的诊断机器人设计,并演示了 SysOM 智能诊断机器人。智能机器人和运维平台是相辅相成的关系,运维平台的诊断能力成就了智能机器人解决实际问题的能力,智能机器人帮助运维平台更好地发挥和展示运维能力。

(图/陈诗雁)


除了硬核技术和实践案例分享外,现场还准备了精美茶歇和伴手礼:


最后,感谢本次活动各位嘉宾的精彩演讲,也感谢中兴通讯及龙蜥社区伙伴成员:徐立锋、杨光、胡捷、李康雅、毛文安、金美琴、蔡佳丽、刘寅、孙林林、林莉、池福睿、陈昊楠、陈晓源、冯艳、刘洪村、李鹏、李兴、刘家瑜、宋梦芝、解潞丹、周峻苇、王天助、袁艳桃(以上排名不分先后)等人的组织与配合,也特别感谢 DeepFlow 社区、乘云数字、51CTO、阅码场等媒体/企业对本次活动直播的支持,有各位的辛苦付出,使得 MeetUp 活动圆满结束。


课件、视频获取

本次活动技术 PPT 已上传,关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。视频回放将会尽快上传至龙蜥官网(动态-视频-龙蜥MeetUp)。

—— 完 ——

相关文章
|
5天前
|
机器学习/深度学习 人工智能 运维
智能化运维####
本文深入探讨了智能化运维的前沿趋势与实践,通过融合大数据、人工智能等先进技术,重塑传统IT运维模式。我们分析了智能化运维的核心价值,包括提升效率、减少故障响应时间及增强系统稳定性,并通过具体案例展示了其在现代企业中的应用成效。对于追求高效、智能运维管理的组织而言,本文提供了宝贵的洞见和策略指导。 ####
|
7天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
5天前
|
机器学习/深度学习 人工智能 运维
智能运维在现代IT系统中的应用与挑战####
本文深入探讨了智能运维(AIOps)在现代IT系统中的关键作用,通过具体案例分析,揭示了其在提升系统稳定性、优化资源配置及自动化故障处理方面的显著优势。同时,文章也指出了实施智能运维过程中面临的数据安全、技术整合及人员技能转型等挑战,并提出了相应的解决策略,为读者提供了全面而深刻的见解。 ####
27 6
|
4天前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
7天前
|
机器学习/深度学习 运维 监控
智能化运维:从被动响应到主动预防的转型之路####
本文深入探讨了智能化运维(AIOps)如何引领信息技术管理从传统的被动响应模式向主动预防机制转变,强调了大数据、人工智能算法与机器学习技术在提升系统稳定性和效率中的关键作用。通过分析智能化运维的核心价值、实施策略及面临的挑战,本文为读者揭示了一个更加智能、高效且灵活的IT运维未来蓝图。 ####
|
5天前
|
人工智能 运维 监控
智能运维在现代数据中心的应用与挑战
随着云计算和大数据技术的迅猛发展,现代数据中心的运维管理面临着前所未有的挑战。本文探讨了智能运维技术在数据中心中的应用,包括自动化监控、故障预测与诊断、资源优化等方面,并分析了当前面临的主要挑战,如数据安全、系统集成复杂性等。通过实际案例分析,展示了智能运维如何帮助数据中心提高效率、降低成本,并提出了未来发展趋势和建议。
|
5天前
|
机器学习/深度学习 数据采集 人工智能
运维新纪元:AIOps引领智能运维变革####
本文探讨了人工智能与运维管理深度融合的前沿趋势——AIOps(Artificial Intelligence for Operations),它通过机器学习、大数据分析等技术手段,为现代IT运维体系带来前所未有的智能化升级。不同于传统依赖人力的运维模式,AIOps能够实现故障预测、自动化修复、性能优化等功能,大幅提升系统稳定性和运营效率。文章将深入分析AIOps的核心价值、关键技术组件、实施路径以及面临的挑战,旨在为读者揭示这一新兴领域如何重塑运维行业的未来。 ####
|
4天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
52 4
|
13天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
38 4