龙蜥操作系统装机量突破1000万,市占率近50%,首发支持RISC-V RVA23预览版!
报告调研显示,在国产操作系统迁移意愿方面,龙蜥操作系统的吸引力最高,用户意愿迁移至龙蜥生态社区版和商业版的比例为 54.25%,占比第一。
Agent 时代下的全局 KVCache 管理架构演进
本演讲聚焦Agent场景下KVCache的存储需求和带来的挑战,梳理了KVCache管理模式的演进路径。重点介绍了SGLang生态中的Hf3fsMetadataServer(MiniManager),以及阿里云即将开源的企业级全局KVCache管理系统—-TairKVCacheManager。该系统已实现对Mooncake的原生支持,为Agent时代的大模型推理提供稳定高效的KVCache存储支持。
使用 SGLang 进行高效稳定的强化学习
SGLang 贡献者、阿里巴巴集团通义千问(Qwen)团队成员林骏荣做了题为《使用 SGLang 进行高效稳定的强化学习》的主题演讲。近期,SGLang 强化学习团队在提升强化学习(RL)训练稳定性、并缩小训练与推理误差方面取得了显著进展。在本次演讲中,我们回顾了这些进展,讨论其背后的关键动机和解决方案。
从 EPD 到 SGLang-Omni:图像密集场景推理加速实践与下一代全模态推理架构演进
本次分享展示EPD在图像密集请求(4–8张/次)下的优化:1 QPS时比非分离部署延迟低约6–8倍,高QPS下吞吐增约2倍;解析EPD解耦架构如何以组件弹性扩展与异构部署避免Prefill节点成倍扩容。并聚焦SGLang面向Omni多模态的系统演进,阐述如何将LLM推理扩展到文本、图像、音频、视频多模态IO,以及Processor拆分、数据流与调度、多阶段推理协同等关键设计与实践。
一个高效可扩展的 Agentic RL 框架
近期,强化学习的任务形态正从以reasoningtask为主,逐步演进为更复杂的Agentictask。这类任务引入了agentframework,更加复杂的数据生成流程与稳定性挑战,对RL训练框架提出了全新要求。本次演讲将聚焦slime框架,系统介绍其针对AgenticRL场景所做的一系列关键优化设计,包括灵活的rollout机制、解耦的agent接入方式、高效的并行与同步策略等,全面展示slime如何显著提升AgenticRL训练的scalability。
ROLL:面向大规模 AgenticRL 的异步解耦与异构算力调度实践
本次分享将介绍阿里巴巴自研强化学习框架ROLL及其针对AgenticRL异构负载的深度优化方案。重点解读如何通过异构硬件亲和性调度、细粒度异步编排以及状态感知的按需弹性部署,攻克大规模场景下的通信与计算瓶颈。目前,ROLL已在三千卡集群、千亿参数MoE模型上实现了生产级的极致吞吐;此外,我们将探讨ROLL与Mooncake存算分离架构结合的未来演进,进一步释放大规模RL后训练的潜力。
Arks 快速部署推理服务&SIMM 高性能 kv 缓存
arks底层使用rbg作为workload部署管理框架,让开发者专注于推理本身而无需关注底层细节;simm是一个分布式kv存储,快如内存,大如云盘,开箱即用。
共建大模型推理生态:Mooncake、KTransformers 与 SGLang
Mooncake 是一个以 KVCache 为中心、面向解耦场景设计的分布式大模型推理架构,通过零拷贝传输、多网卡池化与链路优化、弹性扩展与高效内存利用等技术,助力 SGLang 实现了 KVCache 的高效跨节点传输与共享,显著提升了推理性能。KTransformers 是一个 CPU/GPU 混合的大模型异构推理框架,基于 AVX/AMX 指令集,实现了 NVFP4、FP8、BF16 等原生精度 MoE kernel,支持了高效的原生精度推理;同时,使用专家级流水线进行流式预填充,通过 SGLang 的 GPU MoE Kernel 实现了 layerwise prefill 架构,大幅提升长上下文场景的吞吐与延迟表现。本次分享将聚焦于 Mooncake 和 KTransformers 的架构设计、关键技术特性、最新进展,以及与 SGLang 的集成实践和应用效果。
智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?
大模型正从“参数竞赛”转向“应用落地”,算力的性能、成本与工程效率成为关键瓶颈。本圆桌邀请阿里云、中兴、沐曦、浪潮等企业专家,探讨三大关键:如何通过软硬协同释放异构算力效能?SGLang与开源社区如何降低部署门槛?在 AI 运维与垂直行业中如何构建稳定、弹性且低成本的推理方案?最终推动AI从技术突破走向产业落地。
智算新范式:基于 Anolis OS 构建 Confidential AI Agent — OpenClaw-CC 隐私保护实践|龙蜥大讲堂144期
近日,英特尔中国高级工程师朱运阁与龙蜥社区云原生机密计算 SIG Contributor 赖堃共同带来了《智算新范式:构建 Confidential AI Agent》的主题分享。他们基于Intel® TDX(可信域扩展)技术与龙蜥社区开源生态,深度解析了 OpenClaw-CC 项目的架构设计与落地实践,展示了一套从硬件根信任到应用层隔离的全栈机密计算解决方案,为您系统化拆解如何构建“可用不可见”的机密智能体。
恭贺!西交利物浦大学PQC-X实验室空间启用及国际合作交流中心揭牌,携手龙蜥共筑后量子安全防线
该实验室旨在攻克信息系统向“后量子密码”迁移过程中的核心技术难题,以应对量子计算发展对现有公钥密码体系构成的潜在风险。
英特尔平台上的功耗性能优化
功耗与性能在许多情况下存在竞争关系,但二者并非总是互斥的。通过合理分配各组件间的功耗,可以有效提升整体性能表现。英特尔高级工程师张锐分享了《英特尔平台上的功耗性能优化》,与现场嘉宾深入探讨了近期基于最新英特尔平台在龙蜥社区中开展的功耗相关工作,并阐述了这些工作的必要性,以及如何运用这些技术来优化功耗管理并提升系统性能。
从主线到龙蜥的内核创新,驱动下一代 AMD EPYC 计算平台
阿里云智能集团技术专家冯光辉、AMD 资深内核专家舒明联合分享了《从主线到龙蜥的内核创新,驱动下一代 AMD EPYC 计算平台》。冯光辉介绍了 AMD Genoa、Turin 等平台在龙蜥操作系统中的适配现状,重点展示 INVLPGB、Bus Lock Trap、IBS 等高阶能力的落地情况,并分享了未来在 I/O 加速、SEV-SNP 机密计算等方向的社区支持计划。舒明则全面分享了 AMD EPYC 在开源生态中的技术投入与创新成果,涵盖从 Linux Kernel 上游社区的前沿开发进展到龙蜥社区的产品化支持;也深入解析了 AMD 工程师在 Linux Kernel Upstream 社区的最新补丁进展,包括 SDCI、PML、SDXI、vIOMMU 等关键特性,探讨其在实际应用中的价值与对下一代 AMD CPU 的支持。
C 转 Rust 的 AI 自动化方法
C 语言是非内存安全开发语言,在主流 Linux 操作系统中 C 语言代码占比超 70%,其中内核中的 C 语言代码超 90%。谷歌报告显示,超过 70% 高危漏洞源于内存安全问题。OpenSSF 也提出通过替换非内存安全的语言来消除内存安全漏洞是根本方法。统信服务器产线架构师张海东分享了《C 转 Rust 的 AI 自动化方法》,结合 AI 大模型 ,提出了一种 C 语言项目转换为 Rust 语言的一种可行性方法,提高系统关键组件的安全性,消除内存安全问题。
基于 io_uring 和双 virtqueue 队列的 virtio-blk 数据通路加速方案
阿里云智能集团研发工程师孟繁瑞分享了《基于 io_uring 和双 virtqueue 队列的 virtio-blk 数据通路加速方案》。孟繁瑞提到,阿里云操作系统团队联合 CIPU、盘古等团队,基于 io_uring 的直通能力和 vring pair 的队列设计,改造了 virtio-blk 内核驱动,赋予了用户态程序直接构造 virtio-blk 命令的能力,不仅拓展了 virtio-blk 设备的功能边界,也为基于此技术的后端存储解决方案带来了更大的灵活性和扩展性,为公有云、分布式存储等场景提供了较好的弹性、可并发性和大吞吐能力。目前,这些特性已经合入了 ANCK-5.10 和 ANCK-6.6 中,即将随业务灰度上线。
AI Agent 在 Anolis OS CVE 数据增强及智能化评估的实践
周彭晨表示,操作系统产品安全是一个不断演进的动态过程,及时发现和修复系统漏洞是操作系统安全合规治理的重要基础,围绕 CVE 的漏洞管理体系直接影响产品的安全响应效率与风险控制水平。同时,以开源组件为基础的操作系统产品存在漏洞数据庞大,漏洞信息不完整、格式不统一、更新滞后等问题,导致误报率高、关键漏洞易被忽略,严重影响处置效率。通过 AI Agent 实现多源信息采集、标准化处理与漏洞智能增强,并利用 AI Agent 辅助进行漏洞影响的评估和分析,可有效提升漏洞处理的效率和准确性。
RISC-V 基金会 Data Center SIG 第七次会议圆满结束,研讨硬件加速机制
围绕“为何需要 TG、要做哪些规范工作、如何证明可行(PoC)以及如何组织生态协作”等关键点展开讨论。
RISC-V 基金会 Data Center SIG 第六次会议圆满结束,推动数据中心缺口改进及引入
重点围绕“在 RISC-V 架构中引入持久化内存(Persistent Memory,PMem)相关支持”等的方向展开讨论。
揭开 Java 容器“消失的内存”之谜:云监控 2.0 SysOM 诊断实践
云监控 2.0中的 SysOM 系统诊断对应用内存进一步深挖,结合应用和操作系统的角度实现对主机、容器运行时及具体的 Java 应用进程进行内存占用拆解,快速有效地识别出 Java 内存占用的元凶。
面向多租户云的 IO 智能诊断:从异常发现到分钟级定位
阿里云云监控 2.0 结合 SysOM 智能诊断功能围绕常见的 I/O 异常场景,构建了一套覆盖“异常检测—根因分析—修复建议”全链路的 I/O 一键诊断功能。
docker/脚本/ISO镜像安装FreeSWITCH 1.10.12 图形化界面
本文详解FreeSWITCH三种部署方式:脚本安装(推荐生产环境)、系统镜像(开箱即用)、容器化(适用于测试)。支持AlmaLinux、Rocky Linux、国产麒麟等系统,涵盖硬件要求、安装步骤与安全建议,助力高效搭建企业通信平台。
认识OAuth2.0
OAuth2.0是一种开放授权标准,允许第三方应用在用户授权下安全访问资源,无需获取用户账号密码。其核心是通过令牌(token)机制实现权限控制,广泛应用于服务间资源互通与第三方登录。主要包含四种模式:授权码模式(最安全,适用于大多数场景)、简化模式(适合无后端的应用)、密码模式(需高度信任)和客户端模式(服务间直连,与用户无关)。Spring Security可基于OAuth2实现单点登录及服务授权。
迈向云+数据中心的国产 CPU 新引擎,龙蜥大会 RISC-V 分论坛回顾一览
本论坛成为高效的技术交流与合作平台,充分展示了 RISC-V 架构在服务器、边缘计算等高性能场景的商业化落地,助力构建开放共赢的算力新生态。
龙蜥操作系统
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。