SGLang Roadmap - 面向大模型与多模态模型的高性能开源推理系统
SGLang社区核心维护者童心源深度解读《SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统》。视频涵盖SGLang发展历程,重点剖析PD分离、多模态与硬件支持、RL/post-training部署等关键技术创新,并分享开源社区协作进展及最新性能优化路线图,带你全面了解这一高性能开源推理系统的前沿动态。
从全链路可观测到智能分析 - AI 性能分析范式的演进与实践
龙蜥社区SGLang项目开发者苏峰与智算联盟委员常怀鑫联合分享《从全链路可观测到智能分析:AI性能分析范式的演进与实践》。视频回顾了SGLang Tracing可观测性建设历程,并结合实战案例,深入探讨如何借助AI Agent实现SGLang框架的智能性能优化,展现AI性能分析新范式的落地应用。
从黑盒到透明:SGLang tracing如何赋能LLM推理性能诊断
大模型推理服务的性能问题往往难以定位——请求延迟高是卡在哪个环节?队列等待、prefill 计算、还是 decode 阶段?传统监控只能提供聚合指标,无法精准定位单请求瓶颈。SGLang 请求追踪系统解决了这一痛点。通过端到端的全链路追踪,每个请求从入口到输出的完整生命周期被精确记录:队列等待耗时、prefill/decode 各阶段时长、跨节点传输延迟等关键指标一目了然。结合 OpenTelemetry 标准,可与主流可观测性平台无缝集成,实现可视化分析。这套系统让性能调优从"猜测驱动"转变为"数据驱动",帮助开发者快速识别热点、优化资源配比,显著提升 LLM 服务的吞吐与响应质量。
MuxWise:面向高Goodput LLM服务的GPU内Prefill-Decode复用技术
LLM推理中prefill(计算密集)与decode(访存密集)资源特性迥异。现有PD分离方案割裂KV cache池、难以适应流量波动;Chunked-prefill则在SLO达标率与GPU利用率间顾此失彼。MuxWise提出GPU内PD空分复用新范式:动态划分SM,让prefill与decode在同一GPU上并行执行、共享KV cache。系统包含三项核心技术:无气泡空分复用引擎、竞争感知延迟预测器、decode优先SLO感知调度。在主流GPU和任务上实现最高3倍goodput提升,代码已合并入SGLang主分支。
面向multi-agent场景的长上下文管理方法|龙蜥MeetUp
本次分享围绕“面向 multi-agent 场景的长上下文管理方法”展开,结合研究背景、现有系统痛点、方案设计与实验结果,系统介绍多智能体协作中长上下文管理的关键挑战与应对思路。内容涵盖长上下文在 multi-agent 场景中的应用需求、当前方法的局限性、本文提出的管理策略及其创新点,并展示系统实现与实验验证结果,帮助观众全面了解该方向的核心问题与解决方案。
基于龙蜥操作系统的AI服务器GPU RAS增强技术|龙蜥大讲堂
在AI算力快速发展的今天,GPU已经成为AI服务器的核心引擎,但随之而来的稳定性、可观测性和故障定位问题,也对底层基础设施提出了更高要求。本视频将以“GPU黑匣子”技术应用为例,介绍如何基于龙蜥操作系统增强AI服务器的GPU RAS能力,提升GPU在运行过程中的可靠性、可用性与可维护性。通过对GPU关键状态、异常信息和运行日志的持续记录与分析,帮助运维人员在故障发生前提前感知风险,在故障发生后快速定位问题,从而有效降低AI训练与推理任务中断带来的影响,构建更加稳定、高效的AI算力底座。