Linux

首页 标签 Linux
# Linux #
关注
139245内容
Agent 时代下的全局 KVCache 管理架构演进
本演讲聚焦Agent场景下KVCache的存储需求和带来的挑战,梳理了KVCache管理模式的演进路径。重点介绍了SGLang生态中的Hf3fsMetadataServer(MiniManager),以及阿里云即将开源的企业级全局KVCache管理系统—-TairKVCacheManager。该系统已实现对Mooncake的原生支持,为Agent时代的大模型推理提供稳定高效的KVCache存储支持。
使用 SGLang 进行高效稳定的强化学习
SGLang 贡献者、阿里巴巴集团通义千问(Qwen)团队成员林骏荣做了题为《使用 SGLang 进行高效稳定的强化学习》的主题演讲。近期,SGLang 强化学习团队在提升强化学习(RL)训练稳定性、并缩小训练与推理误差方面取得了显著进展。在本次演讲中,我们回顾了这些进展,讨论其背后的关键动机和解决方案。
ROLL:面向大规模 AgenticRL 的异步解耦与异构算力调度实践
本次分享将介绍阿里巴巴自研强化学习框架ROLL及其针对AgenticRL异构负载的深度优化方案。重点解读如何通过异构硬件亲和性调度、细粒度异步编排以及状态感知的按需弹性部署,攻克大规模场景下的通信与计算瓶颈。目前,ROLL已在三千卡集群、千亿参数MoE模型上实现了生产级的极致吞吐;此外,我们将探讨ROLL与Mooncake存算分离架构结合的未来演进,进一步释放大规模RL后训练的潜力。
Arks 快速部署推理服务&SIMM 高性能 kv 缓存
arks底层使用rbg作为workload部署管理框架,让开发者专注于推理本身而无需关注底层细节;simm是一个分布式kv存储,快如内存,大如云盘,开箱即用。
共建大模型推理生态:Mooncake、KTransformers 与 SGLang
Mooncake 是一个以 KVCache 为中心、面向解耦场景设计的分布式大模型推理架构,通过零拷贝传输、多网卡池化与链路优化、弹性扩展与高效内存利用等技术,助力 SGLang 实现了 KVCache 的高效跨节点传输与共享,显著提升了推理性能。KTransformers 是一个 CPU/GPU 混合的大模型异构推理框架,基于 AVX/AMX 指令集,实现了 NVFP4、FP8、BF16 等原生精度 MoE kernel,支持了高效的原生精度推理;同时,使用专家级流水线进行流式预填充,通过 SGLang 的 GPU MoE Kernel 实现了 layerwise prefill 架构,大幅提升长上下文场景的吞吐与延迟表现。本次分享将聚焦于 Mooncake 和 KTransformers 的架构设计、关键技术特性、最新进展,以及与 SGLang 的集成实践和应用效果。
智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?
大模型正从“参数竞赛”转向“应用落地”,算力的性能、成本与工程效率成为关键瓶颈。本圆桌邀请阿里云、中兴、沐曦、浪潮等企业专家,探讨三大关键:如何通过软硬协同释放异构算力效能?SGLang与开源社区如何降低部署门槛?在 AI 运维与垂直行业中如何构建稳定、弹性且低成本的推理方案?最终推动AI从技术突破走向产业落地。
智算新范式:基于 Anolis OS 构建 Confidential AI Agent — OpenClaw-CC 隐私保护实践|龙蜥大讲堂144期
近日,英特尔中国高级工程师朱运阁与龙蜥社区云原生机密计算 SIG Contributor 赖堃共同带来了《智算新范式:构建 Confidential AI Agent》的主题分享。他们基于Intel® TDX(可信域扩展)技术与龙蜥社区开源生态,深度解析了 OpenClaw-CC 项目的架构设计与落地实践,展示了一套从硬件根信任到应用层隔离的全栈机密计算解决方案,为您系统化拆解如何构建“可用不可见”的机密智能体。
英特尔平台上的功耗性能优化
功耗与性能在许多情况下存在竞争关系,但二者并非总是互斥的。通过合理分配各组件间的功耗,可以有效提升整体性能表现。英特尔高级工程师张锐分享了《英特尔平台上的功耗性能优化》,与现场嘉宾深入探讨了近期基于最新英特尔平台在龙蜥社区中开展的功耗相关工作,并阐述了这些工作的必要性,以及如何运用这些技术来优化功耗管理并提升系统性能。
从主线到龙蜥的内核创新,驱动下一代 AMD EPYC 计算平台
阿里云智能集团技术专家冯光辉、AMD 资深内核专家舒明联合分享了《从主线到龙蜥的内核创新,驱动下一代 AMD EPYC 计算平台》。冯光辉介绍了 AMD Genoa、Turin 等平台在龙蜥操作系统中的适配现状,重点展示 INVLPGB、Bus Lock Trap、IBS 等高阶能力的落地情况,并分享了未来在 I/O 加速、SEV-SNP 机密计算等方向的社区支持计划。舒明则全面分享了 AMD EPYC 在开源生态中的技术投入与创新成果,涵盖从 Linux Kernel 上游社区的前沿开发进展到龙蜥社区的产品化支持;也深入解析了 AMD 工程师在 Linux Kernel Upstream 社区的最新补丁进展,包括 SDCI、PML、SDXI、vIOMMU 等关键特性,探讨其在实际应用中的价值与对下一代 AMD CPU 的支持。
基于 io_uring 和双 virtqueue 队列的 virtio-blk 数据通路加速方案
阿里云智能集团研发工程师孟繁瑞分享了《基于 io_uring 和双 virtqueue 队列的 virtio-blk 数据通路加速方案》。孟繁瑞提到,阿里云操作系统团队联合 CIPU、盘古等团队,基于 io_uring 的直通能力和 vring pair 的队列设计,改造了 virtio-blk 内核驱动,赋予了用户态程序直接构造 virtio-blk 命令的能力,不仅拓展了 virtio-blk 设备的功能边界,也为基于此技术的后端存储解决方案带来了更大的灵活性和扩展性,为公有云、分布式存储等场景提供了较好的弹性、可并发性和大吞吐能力。目前,这些特性已经合入了 ANCK-5.10 和 ANCK-6.6 中,即将随业务灰度上线。
免费试用