Anolis

首页 标签 Anolis
# Anolis #
关注
1666内容
Agent 时代下的全局 KVCache 管理架构演进
本演讲聚焦Agent场景下KVCache的存储需求和带来的挑战,梳理了KVCache管理模式的演进路径。重点介绍了SGLang生态中的Hf3fsMetadataServer(MiniManager),以及阿里云即将开源的企业级全局KVCache管理系统—-TairKVCacheManager。该系统已实现对Mooncake的原生支持,为Agent时代的大模型推理提供稳定高效的KVCache存储支持。
使用 SGLang 进行高效稳定的强化学习
SGLang 贡献者、阿里巴巴集团通义千问(Qwen)团队成员林骏荣做了题为《使用 SGLang 进行高效稳定的强化学习》的主题演讲。近期,SGLang 强化学习团队在提升强化学习(RL)训练稳定性、并缩小训练与推理误差方面取得了显著进展。在本次演讲中,我们回顾了这些进展,讨论其背后的关键动机和解决方案。
ROLL:面向大规模 AgenticRL 的异步解耦与异构算力调度实践
本次分享将介绍阿里巴巴自研强化学习框架ROLL及其针对AgenticRL异构负载的深度优化方案。重点解读如何通过异构硬件亲和性调度、细粒度异步编排以及状态感知的按需弹性部署,攻克大规模场景下的通信与计算瓶颈。目前,ROLL已在三千卡集群、千亿参数MoE模型上实现了生产级的极致吞吐;此外,我们将探讨ROLL与Mooncake存算分离架构结合的未来演进,进一步释放大规模RL后训练的潜力。
Arks 快速部署推理服务&SIMM 高性能 kv 缓存
arks底层使用rbg作为workload部署管理框架,让开发者专注于推理本身而无需关注底层细节;simm是一个分布式kv存储,快如内存,大如云盘,开箱即用。
共建大模型推理生态:Mooncake、KTransformers 与 SGLang
Mooncake 是一个以 KVCache 为中心、面向解耦场景设计的分布式大模型推理架构,通过零拷贝传输、多网卡池化与链路优化、弹性扩展与高效内存利用等技术,助力 SGLang 实现了 KVCache 的高效跨节点传输与共享,显著提升了推理性能。KTransformers 是一个 CPU/GPU 混合的大模型异构推理框架,基于 AVX/AMX 指令集,实现了 NVFP4、FP8、BF16 等原生精度 MoE kernel,支持了高效的原生精度推理;同时,使用专家级流水线进行流式预填充,通过 SGLang 的 GPU MoE Kernel 实现了 layerwise prefill 架构,大幅提升长上下文场景的吞吐与延迟表现。本次分享将聚焦于 Mooncake 和 KTransformers 的架构设计、关键技术特性、最新进展,以及与 SGLang 的集成实践和应用效果。
智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?
大模型正从“参数竞赛”转向“应用落地”,算力的性能、成本与工程效率成为关键瓶颈。本圆桌邀请阿里云、中兴、沐曦、浪潮等企业专家,探讨三大关键:如何通过软硬协同释放异构算力效能?SGLang与开源社区如何降低部署门槛?在 AI 运维与垂直行业中如何构建稳定、弹性且低成本的推理方案?最终推动AI从技术突破走向产业落地。
智算新范式:基于 Anolis OS 构建 Confidential AI Agent — OpenClaw-CC 隐私保护实践|龙蜥大讲堂144期
近日,英特尔中国高级工程师朱运阁与龙蜥社区云原生机密计算 SIG Contributor 赖堃共同带来了《智算新范式:构建 Confidential AI Agent》的主题分享。他们基于Intel® TDX(可信域扩展)技术与龙蜥社区开源生态,深度解析了 OpenClaw-CC 项目的架构设计与落地实践,展示了一套从硬件根信任到应用层隔离的全栈机密计算解决方案,为您系统化拆解如何构建“可用不可见”的机密智能体。
龙蜥社区通过OpenChain 18974国际标准认证,夯实开源安全技术底座
成为全球少数获得该项权威安全标准认可的开源操作系统社区之一。
免费试用