从社区到生产——基于 SGLang HiCache + Mooncake 的深度优化与企业级落地
陈凯悦带来《从社区到生产:基于 SGLang HiCache + Mooncake 的深度优化与企业级落地工程实践》主题分享。视频完整还原了 HiCache 与 Mooncake 在内部推理集群的规模化部署过程,并深入解析其在企业客户环境中的落地实践,为 SGLang 从开源社区走向生产环境提供了宝贵的工程经验与优化思路。
从黑盒到透明:SGLang tracing如何赋能LLM推理性能诊断
大模型推理服务的性能问题往往难以定位——请求延迟高是卡在哪个环节?队列等待、prefill 计算、还是 decode 阶段?传统监控只能提供聚合指标,无法精准定位单请求瓶颈。SGLang 请求追踪系统解决了这一痛点。通过端到端的全链路追踪,每个请求从入口到输出的完整生命周期被精确记录:队列等待耗时、prefill/decode 各阶段时长、跨节点传输延迟等关键指标一目了然。结合 OpenTelemetry 标准,可与主流可观测性平台无缝集成,实现可视化分析。这套系统让性能调优从"猜测驱动"转变为"数据驱动",帮助开发者快速识别热点、优化资源配比,显著提升 LLM 服务的吞吐与响应质量。
Linux 应用运行抖动的背后 | 龙蜥大讲堂25期
抖动是影响业务性能的一大类问题,通过深入理解 Linux 应用运行过程的抖动原因,来协助系统及应用进行优化。同时介绍怎么 SysAK 工具对问题进行监控和诊断。
SGLang Roadmap - 面向大模型与多模态模型的高性能开源推理系统
SGLang社区核心维护者童心源深度解读《SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统》。视频涵盖SGLang发展历程,重点剖析PD分离、多模态与硬件支持、RL/post-training部署等关键技术创新,并分享开源社区协作进展及最新性能优化路线图,带你全面了解这一高性能开源推理系统的前沿动态。
Linux基础内容学习方法和概述
课程介绍:如何成为网络安全工程师?不知道该如何入门?本课程通过四个模块的知识学习,让您能够对网络安全相关基础技术有一个全面的了解和掌握,主要内容包括:IT基础技术、网络安全基础概念、网络安全渗透技术基础及Web应用安全基础。主要的学习方式包括在线直播、图文和在线实验进行学习。如果您是一位对网络安全感兴趣的大学生,我们还会根据您学习过程的参与情况,与线下考试情况,给您推荐实习或就业机会,快快来参与吧。系列课程Linux基础内容学习方法和概述(本节)用户管理和文件管理网络基础学习方法和概述局域网、路由技术 常见网络应用层协议和工具 MySQL数据库学习方法和概述 MySQL对象与应用和运维技术 Web应用基础学习方法和概述Web服务和应用实践网络安全学习方法、背景和发展密码学概述和关键算法密码学常见应用身份与访问控制概述、相关技术和常见威胁网络层和主机层常见漏洞和攻击 应用层和数据层常见漏洞和攻击渗透测试概述和相关工具概述信息收集和漏洞扫描技术 网络层主要攻击 、流量捕获技术和初识Netcat 主机层主要攻击 、口令破解和权限提升 OWASP Top 10 概述 、初识SQL注入、XSS和文件上传常见 Web 漏洞解析Web安全工具DVWA部署 、暴力破解和命令注入实操XSS 、 文件包含和文件上传实操SQL回显注入 、 SQL盲注和CSRF实操网络层和主机层安全防护技术基础Web应用层和数据层安全防护技术基础讲师介绍:唐俊飞:铭学在线创始人,网络安全行业知名讲师、CISSP、阿里云安全ACP、CISP、中国信息安全测评中心授权培训师资质(CISI)、 CSA(云安全联盟)大中华区授权培训师资质、阿里云MVP。16年网络信息安全以及培训领域从业经验,具有较强的网络安全管理、技术、咨询和培训实战项目经验,曾就职于:运营商、上市安全企业等。主要讲授CISSP(国际注册信息系统安全专家认证)、CISP(国家注册信息安全人员认证)、信息安全管理、渗透测试、等级保护、网络安全防护体系、云安全等课程资深讲师,培训人数20余万人次。张弛:梆梆安全安全服务团队负责人,致力于移动安全领域研究,目前主要负责移动应用渗透测试、安全培训体系建设、web渗透测试等工作。在职期间参与过重大活动保障、2019年护网行动作为攻击队参与护网行动等,通过自主学习获得了CISP、等保测评师等资格证书。目前在公司担任区域技术经理,深化移动安全的研究以及物、车联网方向的研究。张宁:梆梆安全高级培训讲师,在web安全和移动安全领域拥有数年渗透经验。在金融行业渗透测试有着丰富经验,目前为华夏银行,中信银行等多家银行服务过,也曾作为讲师为CCTV7,中原银行,金谷银行进行安全科普,漏洞挖掘等培训。适用人群:对网络安全感兴趣的在校大学生、网络安全初学者、希望掌握安全基础技术的IT在职者你能学到:网络安全相关的基本概念、基础渗透技术、基础防护技术等
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
Apache Spark是当前流行的开源数据处理引擎,Spark SQL为用户提供可靠的查询计算解决方案。近期,Gluten项目作为基于Apache Arrow的原生SQL引擎正式亮相,旨在增强Spark SQL计算性能。与此同时,多个向量化SQL引擎和更加活跃的开源社区也纷纷涌现。其中Velox项目尤为引人注目,它提供了向量化数据库加速库。本议题简要介绍了Gluten-Velox框架的概况和原理,同步Gluten-Velox社区在AArch64平台上的使能状态,并通过一个 Velox的优化案例,展示此Spark SQL向量化执行引擎框架在AArch64上的潜力。
中移动算力网络中的云原生虚拟化
中国移动信息技术中心 PaaS 架构师魏宝辉分享了《中移动算力网络中的云原生虚拟化》技术演讲。他对中国移动算力网络的基本布局规划做了简要介绍,算力网络是以算为中心、网为根基的新型信息基础设施 。通过技术升级实现算力无处不在、网络无所不达、智能无所不及的愿景。 在多样性算力的开发过程中,对云原生技术栈的需求愈发突显,开发团队多,发布调试频繁,对 k8s 集群环境需求量大,但是算力资源有限,开发环境的供给速度,跟不上业务的发展速度。中国移动信息技术中心通过 kubevirt 的云原生虚拟化技术,结合 gitops,云 ide 等工具体系,打造了自动化交付的全功能开发环境。在技术上采用了 vm in pod 的模式,并将 k8s 集群放入 pod 内。有效突破了物理机供给 k8s 集群紧张的情况,实现了用 8 台物理主机交付 170 多个开发集群。这种高效的自动化交付能力,也通过云原生虚拟化技术屏蔽了底层的硬件差异,以标准化的 k8s 交付方式,满足开发者的集群使用需求,提升算力资源的利用率,释放更大的算力价值。
2023龙蜥操作系统大会
据《国产服务器操作系统发展报告(2023)》称,在云与AI深度融合的技术浪潮之下,服务器操作系统产业正处于升级迭代的关键时期。该主论坛将聚焦服务器操作系统产业 2.0 时代背景,集领域专家学者、联盟协会领导、企业领军人物等,深度解读国产操作系统的过去与未来。讲师/嘉宾简介专家学者、联盟协会领导、企业领军人物
手机内核稳定性的治理与实践
我们了解的 Linux 稳定性都是基于 x86 和 Arm 服务器上的,然而在手机上的系统稳定性,也值得我们去一探究竟。魅族科技高级工程师、龙蜥系统运维SIG Contributor 白浩文与嘉宾一起谈一谈《手机内核稳定性的治理与实践》。他首先简要介绍了稳定性问题的来源,以及开发过程。重点举例介绍了运行时动态检测的一些方法以及相关原理。在实践中,魅族手机在开发阶段引入了一些新的特性来提高捕捉内存异常的概率,其中也包括从上游龙蜥社区引入的改进特性。为了全方位监控和解决稳定性问题,魅族也在智能化分析问题和提升效能方面做了相应工作。最后,还作了简要的总结和阐述所面临的一些挑战。
释放硬件潜能,激活软件生态 《龙蜥+超级探访》第二期走进 Intel
作为龙蜥社区的创始理事单位,以及全球最大的半导体芯片制造商,英特尔为龙蜥提供先进的硬件优化技术,是开源社区创新技术孵化合作的完美典范,也是本期《龙蜥+超级探访》走进的企业。本次访谈邀请了英特尔副总裁、英特尔软件和先进技术事业部总经理李映,英特尔技术总监、龙蜥社区理事杨继国,阿里云服务器操作系统产品经理贾正华,阿里云高级技术专家、龙蜥社区英特尔 Arch SIG Maintainer 丁宁,阿里云 Higress & MSE 云原生网关产品负责人耿蕾蕾等 5 位业界专家,深度解读在操作系统产业面向 AI 升级换代的历史节点上,英特尔如何联手龙蜥布局“云+AI”的未来?在双向奔赴的合作历程中,龙蜥与英特尔如何完美搭配将创新技术孵化至成熟产品,进而服务关键业务场景?
全网首档操作系统探访体验栏目“龙蜥+超级探访”震撼上线!看国产 OS 如何乘风破浪
如何联合开源技术与国际社区形成双向互动,消除 CentOS 策略变更带来的影响?“全网首档操作系统探访体验节目”《龙蜥+超级探访》重磅上线!统信软件既是实现开源和商业互补协作的成功典范,又是身先士卒引领伙伴投身开源的“大队长”,也是龙蜥+超级探访首期走进的企业。且看龙蜥社区联合行业内生态伙伴何实现从技术创新到商业变现的跨越。
Linux 性能调优产品KeenTune快速入门
6 月 11 日 ~ 12 日,龙蜥社区联合 Linux 中国,在北京召开的开放原子全球开放峰会现场组织 LUG 线下沙龙活动,与大家一同聊聊开源、聊聊 Linux 、聊聊社区当中的那些最新的技术。
Alibaba Cloud Linux 与倚天软硬结合,加速数据智能创新
根据 IDC 报告统计,通过云满足客户业务的需求,已经大大超过了传统管理基础设施。ECS 作为阿里云的比较关键的产品和服务,需要用自身产品能力满足不同类型的市场需求。吴天议主要分享了基于龙蜥社区 Anolis OS,阿里云采用倚天芯片与 CIPU 构建的面向云原生神龙计算体系架构,如何满足未来智能化的应用的需求。
第17课:Spring Boot2.0 实战Docker容器Linux与架构原理
直播内容:第17课:Spring Boot2.0实战Docker容器Linux内容摘要:Docker是最流行的开源容器引擎,Go语言开发,在互联网大规模集群、云计算、微服务等架构中广泛使用。本次课程一起学习Docker容器架构原理、如何基于Linux系统实战实战Docker容器,打包、发布、运行Java Spring Boot2.0应用。讲师:徐雷(点击关注专家,掌握一手干货)阿里云栖Java技术专场讲师2018阿里云大学讲师,与阿里P9叶翔主讲《阿里巴巴MongoDB高级实战课程》《阿里巴巴MongoDB认证》讲师阿里巴巴MongoDB大会讲师2017翻译《MongoDB实战》第2版吉林大学计算机学士,上海交通大学硕士直播地址:Java技术进阶群3000人大群进群方式:钉钉扫码入群
量化部署+算子优化:解锁国产硬件大模型高效推理破局之道
围绕主流开源大模型,介绍在国产化硬件上的适配实践:通过低比特量化实现高效部署,结合多算子融合与单算子调优技术,全面提升端到端推理性能。
从割裂到协同——超智融合算力中心的系统化搭建思路与落地路径
分享系统化搭建超智融合算力架构的思路,实现整套集群从芯片、存储、网络到操作系统、算力调度、系统运维的深度融合,以支撑复杂科学计算、工程仿真和AI大模型训练/推理的超智融合应用场景。
从全链路可观测到智能分析 - AI 性能分析范式的演进与实践
龙蜥社区SGLang项目开发者苏峰与智算联盟委员常怀鑫联合分享《从全链路可观测到智能分析:AI性能分析范式的演进与实践》。视频回顾了SGLang Tracing可观测性建设历程,并结合实战案例,深入探讨如何借助AI Agent实现SGLang框架的智能性能优化,展现AI性能分析新范式的落地应用。
基于龙蜥操作系统的AI服务器GPU RAS增强技术|龙蜥大讲堂
在AI算力快速发展的今天,GPU已经成为AI服务器的核心引擎,但随之而来的稳定性、可观测性和故障定位问题,也对底层基础设施提出了更高要求。本视频将以“GPU黑匣子”技术应用为例,介绍如何基于龙蜥操作系统增强AI服务器的GPU RAS能力,提升GPU在运行过程中的可靠性、可用性与可维护性。通过对GPU关键状态、异常信息和运行日志的持续记录与分析,帮助运维人员在故障发生前提前感知风险,在故障发生后快速定位问题,从而有效降低AI训练与推理任务中断带来的影响,构建更加稳定、高效的AI算力底座。
从 EPD 到 SGLang-Omni:图像密集场景推理加速实践与下一代全模态推理架构演进
本次分享展示EPD在图像密集请求(4–8张/次)下的优化:1 QPS时比非分离部署延迟低约6–8倍,高QPS下吞吐增约2倍;解析EPD解耦架构如何以组件弹性扩展与异构部署避免Prefill节点成倍扩容。并聚焦SGLang面向Omni多模态的系统演进,阐述如何将LLM推理扩展到文本、图像、音频、视频多模态IO,以及Processor拆分、数据流与调度、多阶段推理协同等关键设计与实践。
全面繁荣开发者生态分论坛-2023龙蜥操作系统大会
开发者生态是开源社区繁荣发展的力量源泉,本次专场我们将邀请业界合作伙伴、科研院所、开发者分享基于龙蜥开发者服务平台的工具实践,探讨面向未来的开发者服务新范式;同时基于“众测共创”一期建设经验,隆重推出“众测共创”升级计划,以更大力度、更开放的姿态汇聚开发者力量,共建一流的开源社区开发者生态。讲师/嘉宾简介技术专家
ROLL:面向大规模 AgenticRL 的异步解耦与异构算力调度实践
本次分享将介绍阿里巴巴自研强化学习框架ROLL及其针对AgenticRL异构负载的深度优化方案。重点解读如何通过异构硬件亲和性调度、细粒度异步编排以及状态感知的按需弹性部署,攻克大规模场景下的通信与计算瓶颈。目前,ROLL已在三千卡集群、千亿参数MoE模型上实现了生产级的极致吞吐;此外,我们将探讨ROLL与Mooncake存算分离架构结合的未来演进,进一步释放大规模RL后训练的潜力。
沐曦GPU对SGLang的深度适配与工程实践
沐曦股份SGLang推理引擎核心开发者杨鑫压轴分享《沐曦GPU对SGLang的深度适配与工程实践》。视频详解SGLang在沐曦GPU上的全流程适配、自研MXMACA软件栈技术亮点,以及最新模型适配进展与性能优化实战,全面展示国产算力与开源推理框架深度融合的工程成果。
鸿钧微电子技术专家:Arm 架构下性能优化经验分享|龙蜥社区走进Arm MeetUp
从实用角度解读如何在 Arm 平台上进行业务软件的性能测评、分析及优化,涵盖负载配置模式的选择、波动因素的消除、宏观经验调优及多层配合(应用层、系统层及微架构层)的深度性能优化,充分挖掘底层基于 Arm 架构硬件的性能潜力。
libvirt 虚拟机热迁移流程简介 |龙蜥大讲堂81期
直播主题:libvirt 虚拟机热迁移流程简介 直播时间:2023 年 05 月 31 日(周三)16:00-17:00 直播内容: libvirt 是用于管理虚拟机的开源项目,是各大基于 OpenStack 二次开发的云平台管理底层 qemu-kvm 虚拟机的核心组件,而热迁移作为虚拟机管理中较为常用的功能,其在稳定性和效率关乎云平台的整体使用体验,本次分享主要讲解虚拟机热迁移在 libvirt 项目中的主要流程及迁移参数作用和影响。 听众受益: 了解 libvirt 虚拟机热迁移整体流程,迁移方式及关键迁移参数作用及影响。 适合人群: 云计算研发人员。 讲师介绍: 李东世,浪潮数据云计算高级研发工程师,负责浪潮数据云平台核心功能开发及维护,主导底层虚拟化相关功能开发、问题定位处理。
MuxWise:面向高Goodput LLM服务的GPU内Prefill-Decode复用技术
LLM推理中prefill(计算密集)与decode(访存密集)资源特性迥异。现有PD分离方案割裂KV cache池、难以适应流量波动;Chunked-prefill则在SLO达标率与GPU利用率间顾此失彼。MuxWise提出GPU内PD空分复用新范式:动态划分SM,让prefill与decode在同一GPU上并行执行、共享KV cache。系统包含三项核心技术:无气泡空分复用引擎、竞争感知延迟预测器、decode优先SLO感知调度。在主流GPU和任务上实现最高3倍goodput提升,代码已合并入SGLang主分支。
当AI加速漏洞涌现:内核热补丁自动生成智能体赛题全解读
在 AI 技术的推波助澜下,高危内核 CVE 以周级频率爆发,系统修复面临前所未有的压力。尽管内核热补丁技术克服了传统修复需重启服务器的弊端,实现了业务零中断,但从上游原始 Patch 到可加载热补丁的转化过程,仍依赖大量繁琐的人工改写。 针对这一痛点,龙蜥社区系统运维 SIG 成员高向阳在 2026 全国大学生计算机系统能力大赛技术培训会上,详细剖析了如何利用 AI Agent 实现热补丁的自动化生成,成功将补丁制作周期从“天级别”压缩至“分钟级别”,有力证明了 AI Agent 已成为驱动内核安全修复效率变革的新引擎。
从主线到龙蜥的内核创新,驱动下一代 AMD EPYC 计算平台
阿里云智能集团技术专家冯光辉、AMD 资深内核专家舒明联合分享了《从主线到龙蜥的内核创新,驱动下一代 AMD EPYC 计算平台》。冯光辉介绍了 AMD Genoa、Turin 等平台在龙蜥操作系统中的适配现状,重点展示 INVLPGB、Bus Lock Trap、IBS 等高阶能力的落地情况,并分享了未来在 I/O 加速、SEV-SNP 机密计算等方向的社区支持计划。舒明则全面分享了 AMD EPYC 在开源生态中的技术投入与创新成果,涵盖从 Linux Kernel 上游社区的前沿开发进展到龙蜥社区的产品化支持;也深入解析了 AMD 工程师在 Linux Kernel Upstream 社区的最新补丁进展,包括 SDCI、PML、SDXI、vIOMMU 等关键特性,探讨其在实际应用中的价值与对下一代 AMD CPU 的支持。
AI 场景安全防护:基于 eBPF 的勒索病毒、挖矿病毒检测与防御机制|龙蜥MeetUp
分析了AI产业面临的数据、算力与系统安全威胁(如勒索病毒、挖矿病毒)。提出了解决方案:基于eBPF-LSM技术结合勒索病毒行为分析,实现基于诱饵的防御,保障数据完整性与保密性;基于eBPF+kprobe技术结合挖矿病毒动静态特征,实现检测与防御,防止算力滥用;旨在为AI场景构建坚实可靠的安全防线。
OCP GPU RAS规范解读|龙蜥大讲堂
本次演讲重点介绍面向大规模数据中心的GPU RAS能力建设要求,包括大规模数据中心集成过程中遇到的痛点问题,GPU RAS功能及管理要求、GPU系统级故障注入、错误报告及调试转储等内容。
面向multi-agent场景的长上下文管理方法|龙蜥MeetUp
本次分享围绕“面向 multi-agent 场景的长上下文管理方法”展开,结合研究背景、现有系统痛点、方案设计与实验结果,系统介绍多智能体协作中长上下文管理的关键挑战与应对思路。内容涵盖长上下文在 multi-agent 场景中的应用需求、当前方法的局限性、本文提出的管理策略及其创新点,并展示系统实现与实验验证结果,帮助观众全面了解该方向的核心问题与解决方案。
MantaKV:基于 CXL 共享内存的 KVCache 创新管理方案介绍
在 AI 大模型推理日益普及的今天,如何高效管理显存、降低延迟成为核心挑战。特别是在 PD 分离架构下,传统的KVCache 管理方式是否已触及天花板?本期龙蜥大讲堂将带来一场硬核技术分享,深入解析龙蜥操作系统面向未来的存储革新方案——MantaKV!
使用 SGLang 进行高效稳定的强化学习
SGLang 贡献者、阿里巴巴集团通义千问(Qwen)团队成员林骏荣做了题为《使用 SGLang 进行高效稳定的强化学习》的主题演讲。近期,SGLang 强化学习团队在提升强化学习(RL)训练稳定性、并缩小训练与推理误差方面取得了显著进展。在本次演讲中,我们回顾了这些进展,讨论其背后的关键动机和解决方案。
共建大模型推理生态:Mooncake、KTransformers 与 SGLang
Mooncake 是一个以 KVCache 为中心、面向解耦场景设计的分布式大模型推理架构,通过零拷贝传输、多网卡池化与链路优化、弹性扩展与高效内存利用等技术,助力 SGLang 实现了 KVCache 的高效跨节点传输与共享,显著提升了推理性能。KTransformers 是一个 CPU/GPU 混合的大模型异构推理框架,基于 AVX/AMX 指令集,实现了 NVFP4、FP8、BF16 等原生精度 MoE kernel,支持了高效的原生精度推理;同时,使用专家级流水线进行流式预填充,通过 SGLang 的 GPU MoE Kernel 实现了 layerwise prefill 架构,大幅提升长上下文场景的吞吐与延迟表现。本次分享将聚焦于 Mooncake 和 KTransformers 的架构设计、关键技术特性、最新进展,以及与 SGLang 的集成实践和应用效果。
智算新范式:基于 Anolis OS 构建 Confidential AI Agent — OpenClaw-CC 隐私保护实践|龙蜥大讲堂144期
近日,英特尔中国高级工程师朱运阁与龙蜥社区云原生机密计算 SIG Contributor 赖堃共同带来了《智算新范式:构建 Confidential AI Agent》的主题分享。他们基于Intel® TDX(可信域扩展)技术与龙蜥社区开源生态,深度解析了 OpenClaw-CC 项目的架构设计与落地实践,展示了一套从硬件根信任到应用层隔离的全栈机密计算解决方案,为您系统化拆解如何构建“可用不可见”的机密智能体。
全面深度云原生化分论坛-2023龙蜥操作系统大会
本话题将介绍龙蜥操作系统在云原生领域的深入探索和场景优化,展示其针对云原生所做的全面优化以及强大特性,邀请龙蜥社区的用户介绍这些特性在各自领域的落地情况。通过讲解基础软件的优化方法和案例,为听众提供关于如何在云原生场景下提高性能、安全性和稳定性的建议。同时我们也会邀请学术界大拿,为大家带来云原生领域前沿的探索信息。讲师/嘉宾简介技术专家
利用 micro-VM 快照机制对 FaaS 冷启动加速的探索与实践 | 龙蜥大讲堂36期
本次双周会会进一步讨论 SIG 组件引入的规范,同时由 Intel 资深云计算软件架构师介绍 Intel 在 micro-vm 快速启动的探索,听众可以获取云原生函数计算场景下,实例快速置备、快速启动的解决方案。
多核场景下的 Linux 调度器现状和未来|龙蜥MeetUp
分析了多核场景下Linux调度器的挑战与机遇:优化进程唤醒时随核数增加而递增的idle CPU搜索开销;改进默认时间片调度,使其感知进程工作集、线程数据共享等指标,推进同进程线程组在相同LLC domain唤醒以减少跨核缓存失效;探讨了内核调度器支持的用户态BPF自定义调度与AI结合的潜力,即AI预测进程需求辅助BPF生成智能调度策略。
龙蜥社区技术委员会副主席苏志远:浪潮信息与龙蜥实现共赢
浪潮信息系统软件产品部总经理、龙蜥社区技术委员会副主席苏志远讲述了浪潮信息如何在一年时间从理事单位晋升为副理事长单位,分享双方在AI、安全层面的最新合作成果。
龙蜥技术委员会主席杨勇致辞|飞天技术沙龙-CentOS 迁移替换专场
在这个关键时刻,企业面临的挑战远不止现有系统的迁移,更要有前瞻性地考虑,那就是选用何种操作系统来支撑未来业务的拓展,确保 IT 基础设施的持续稳健运行。CentOS 停服事件迫使企业深入审视服务器操作系统的长远稳定使用,同时需要妥善解决当前业务平稳过渡。龙蜥社区致力于为广大用户提供一站式迁移解决方案,因此,社区在 CentOS 替换、一云多芯,包括国产化算力、AI 都有成果落地。
释放云算力 繁荣云生态|2023龙蜥操作系统大会
贾正华在分享中介绍了 Alibaba Cloud Linux 通过在稳定性、安全、性能、服务支持上持续建设,为用户提供更好的云上操作系统体验,发展成为阿里云上部署规模最大的操作系统。同时面向未来AI智算场景,Alibaba Cloud Linux 希望通过提供开箱即用的 AI 容器镜像,为用户的 AI 应用场景,提供一个易用性、稳定性、安全性、性能都更好的运行环境。
英特尔®资源调配技术(英特尔®RDT)与业务混布
崔龙一开始介绍了多核心服务器上,由于资源共享带来的云上服务 QoS 波动,以及 Intel RDT特性对于内存带宽和 L3 cach e用量的监测和分配技术对于保证 QoS 的保障作用 ,intel RDT 特性在上游 Kernel 的支持情况。接着详细介绍了如何通过 pqos 和 Kernel resctrl 接口使用 Intel RDT。同时还以 speccpu 为例,说明了不同负载,对资源的敏感程度差异较大。最后介绍了一系列 Intel RDT 在实际业务混部中部署的实例。
基于内核剖析的故障分析和智能运维实践 | 龙蜥大讲堂75期
通过阿里云大量的运维经验, 云应用复杂的问题单纯从应用自身或者的内核的已有指标难以定位。都需要深入内核的深入分析,作为阿里巴巴操作系统部门系统服务团队,我们提供阿里巴巴全集团内核故障的诊断分析和修复服务,并对阿里云内核疑难问题提供兜底服务,我们基于历史处理过的所有内核故障做系统性梳理和总结,进行大量深入内核的运维探索并贡献到龙蜥社区。
一个高效可扩展的 Agentic RL 框架
近期,强化学习的任务形态正从以reasoningtask为主,逐步演进为更复杂的Agentictask。这类任务引入了agentframework,更加复杂的数据生成流程与稳定性挑战,对RL训练框架提出了全新要求。本次演讲将聚焦slime框架,系统介绍其针对AgenticRL场景所做的一系列关键优化设计,包括灵活的rollout机制、解耦的agent接入方式、高效的并行与同步策略等,全面展示slime如何显著提升AgenticRL训练的scalability。
龙蜥操作系统
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。