Virtio 的技术趋势与 DPU 实践|龙蜥大讲堂第16期
Virtio 背景、技术规范与关键技术以及 Virtio 技术在 DPU 中的实践应用。DPU Virtio 硬化给数据中心基础设施加速带来的收益与产品优势。
CentOS 迁移首选龙蜥,更快更稳更安全!
CentOS 全面停服在即,龙蜥社区秉承迁移“三不原则”,不盲目,不折腾,不短择,为广大用户提供更方便更安全的操作系统迁移服务。CentOS 迁移首选龙蜥,更快更稳更安全!
基于内核剖析的故障分析和智能运维实践 | 龙蜥大讲堂75期
通过阿里云大量的运维经验, 云应用复杂的问题单纯从应用自身或者的内核的已有指标难以定位。都需要深入内核的深入分析,作为阿里巴巴操作系统部门系统服务团队,我们提供阿里巴巴全集团内核故障的诊断分析和修复服务,并对阿里云内核疑难问题提供兜底服务,我们基于历史处理过的所有内核故障做系统性梳理和总结,进行大量深入内核的运维探索并贡献到龙蜥社区。
Mooncake 大模型开源生态体系建设与产业应用实践|龙蜥MeetUp
介绍了大模型推理架构Mooncake。该架构通过创新的KVCache中心设计,显著提升了Kimi智能助手的推理吞吐和成本效率,已引起业界广泛关注。近期,清华大学与阿里云等多家企业宣布共建Mooncake项目,旨在构建高性能推理框架的开源生态。阿里云与清华大学共同探索了大模型资源池化技术的工业应用,推动推理实例共享与缓存池化层标准化,实现高效分布式资源解耦,提升大模型长上下文推理性能。目前Mooncake已在vLLM/SGLang等多个推理框架集成,并在多家企业落地。
PAS工具分享 - FrameScope与RTRadar
云计算服务的主营业务之一便是资源售卖,云厂商会采购不同平台、不同型号的服务器,通过池化技术整合机器资源,再将不同规格的资源弹性售卖给开发者。对开发者而言,是否能够在这众多的云服务器产品中选择出能运行目标程序最佳性能的产品,同时能够在此基础上进一步优化程序性能从而充分利用云资源的性能,是提升上云性价比的第一要务,而FrameScope可以协助用户快速应对上述场景。在应用性能评估中,事务执行延迟是重要指标之一,随着分布式架构的广泛应用,厂商可通过分布式链路跟踪技术(例如Dapper)将延迟瓶颈定位到单节点上(物理机、虚拟机、容器),然而深入分析单节点上复杂的事务延迟时,现有工具往往显得不足。针对以上问题,阿里云自研了一套工具,通过采集事务关键事件以及内核系统事件,重建事务执行过程、分析依赖关系、量化各影响因素对整体延迟的贡献占比,从而定位延迟瓶颈。
圆桌会议:聚焦AI时代机遇下操作系统产业的进化与重构 | 2024龙蜥大会主论坛
中国工程院院士陈纯,中国开源软件推进联盟副主席刘澎,阿里巴巴集团合伙人、阿里云基础设施事业部总经理蒋江伟,中兴通讯中心研究院副院长刘东等五位嘉宾,现场进行了主题为“聚焦AI时代机遇下操作系统产业的进化与重构”的产业圆桌讨论,结合龙蜥社区和龙蜥操作系统(Anolis OS)的近期动态,深入探讨了开源操作系统的发展历史与挑战,AI 与操作系统的融合创新和协同发展等话题。
场景化镜像平台技术解读|2023龙蜥操作系统大会
场景化镜像平台是龙蜥社区推出的统一镜像制作平台,提供容器镜像、虚拟机镜像的 CI、CD 全流程支持。平台分为 【镜像制品】、【制品中心】两个模块。镜像制品向用户开放社区已发布的镜像,用户在镜像制品中可查看镜像描述、镜像下载等;制品中心展示镜像 CI/CD 流程,在 Pipeline 流水线中可追溯构建、测试、安全扫描、发布等每一步流程。镜像平台地址:https://cr.openanolis.cn。
阿里云上操作系统迁移最佳实践-SMC|2023龙蜥操作系统大会
随着 CentOS 操作系统的即将停服,云服务器也面临着越来越大的操作系统 EOL 安全隐患挑战。为了应对这个问题,阿里云推出了高效便捷的云上操作系统迁移方案-SMC。本文将以操作系统 EOL 隐患为背景,分享阿里云 SMC 自动化迁移产品方案和云上操作系统迁移最佳实践干货,助力云上客户一键完成操作系统迁移升级。
操作系统分层分类的实现与应用 | 2023龙蜥操作系统大会
统信UOS服务器版汲取国内外主流社区技术栈优势,并率先提出了「分层分类」的开源技术路线,分层分类理论可以将分散、无序的操作组件维护工作拆解,极大地提升了操作系统的研发效率。目前,分层分类研究成果已广泛应用于多产品、多领域,可以更好地协调产业/团队分工、明确研发方向、维护关键软件、共建共享共治开源新生态。
统信软件“3+3+6”CentOS替换解决方案 | 2023龙蜥操作系统大会
CentOS系统停更,给各行业现有业务系统的稳定持续运行带来了巨大的不确定性。为应对CentOS的停更,保障各行业业务系统的持续运行,统信软件可为用户提供远程支持、现场支持、培训服务、顾问咨询、系统定制等一系列服务支持。不仅能够满足用户快速响应、及时处理和修复问题的要求,还可以按照用户的个性化需求提供订制服务,满足不同用户在各种复杂业务场景下的需求。
开放原子开源基金会孙文龙致辞|2023龙蜥操作系统大会
自 2020 年以来,龙蜥社区集聚产业力量,为开源操作系统发展,全球开源操作系统生态的繁荣做出了突出贡献,也欣喜地见证了龙蜥社区发展壮大的历程。
鸿钧微电子技术专家:Arm 架构下性能优化经验分享|龙蜥社区走进Arm MeetUp
从实用角度解读如何在 Arm 平台上进行业务软件的性能测评、分析及优化,涵盖负载配置模式的选择、波动因素的消除、宏观经验调优及多层配合(应用层、系统层及微架构层)的深度性能优化,充分挖掘底层基于 Arm 架构硬件的性能潜力。
云原生转型之路的多系统运维|龙蜥社区系统运维MeetUp
企业面向几百个转型中间态的系统,通过建设统一对象模型,对异源同域的数据进行解析丰富处理,实现多维数据自主关联。算法和机器学习为复杂的体系提供了动态问题感知和预测的能力。在问题发生后基于根因推荐、同源分析等措施快速故障定界并开始应急处置,保障业务的连续性是首要之责,数智化观测为排障和系统调优提供有效的决策能力。
核心技术分享: CRI-RM based CPU and NUMA Affinity | 龙蜥大讲堂28期
介绍一种新的 CPU 和 NUMA 绑定方法,并在 CRI 资源管理器 (CRI-RM) 中实现,主要将其用作 K8S 上加速工作负载的解决方案。
plugsched : Linux 内核调度器子系统热升级|龙蜥大讲堂18期
plugsched 是 Linux 内核调度器子系统热升级的 SDK,它可以实现在不重启系统、应用的情况下动态替换调度器子系统,毫秒级 downtime 。plugsched 可以对生产环境中的内核调度特性动态的进行增、删、改,以满足不同场景或应用的需求,且支持回滚。
龙蜥云原生 SIG 未来建设
阿里云产品专家、龙蜥云原生SIG Contributor黄韶宇在现场为嘉宾分享了《龙蜥云原生 SIG 未来建设》主题演讲。阐述了龙蜥云原生 SIG 的定位和产出:“龙蜥云原生领域的圆桌会议提供者和组件发行版 owner”和“面向开发者的优秀能力组件和面向用户的易用、好用、接地气的云原生发行版和场景化解决方案”。回顾了龙蜥云原生 SIG 的工作,在成立的 4 个月的时间里,龙蜥云原生 SIG 补齐了龙蜥社区里面云原生能力基础并引入了 10 个组件,同时也建立了一些社区的规则,而最重要的关键节点是发布了龙蜥云原生 SIG 的产品 ACNS,提供了高效便捷、安全稳定、强大丰富的云原生套件。最后描述了云原生 SIG 中开发者和用户的相互推动关系,表达了对于开发者和用户的强烈渴望,希望有更多的参与者一起建立繁荣、强大的社区。
龙蜥大讲堂第69期 - 阿里云 ECS 八代 SPR 实例上使用 Intel AMX 特性加速 AI 类业务的实践
69期-阿里云 ECS 八代 SPR 实例上使用 Intel AMX 特性加速 AI 类业务的实践
机密计算与龙蜥社区云原生机密计算 SIG 详细介绍
6 月 11 日 ~ 12 日,龙蜥社区联合 Linux 中国,在北京召开的开放原子全球开放峰会现场组织 LUG 线下沙龙活动,与大家一同聊聊开源、聊聊 Linux 、聊聊社区当中的那些最新的技术。
龙蜥开发者服务MeetUp——KeenTune:统信 UOS 性能调优利器
龙蜥开发者服务MeetUp——KeenTune:统信 UOS 性能调优利器 讲师/嘉宾简介: 李林杰:统信软件
开源人说第二期——《从开源中来,到开源中去》先导预告
《开源人说》为阿里云开发者社区与InfoQ 联合出品的一档精品开源视频栏目。栏目围绕四大开源领域:云原生、操作系统、数据库、大数据&AI,介绍优秀的开源软件背后的故事,记录传播技术人追求极致和开放共享的精神。第二期主题《从开源中来,到开源中去》,围绕龙蜥操作系统开源故事,以及开放、丰富、多元、健壮的社区生态,讲述龙蜥是如何从Linux开源而来,CentOS替换出发,捐赠开放原子基金会,到开源中去,最后落地千行百业中去产生实际价值的故事。我们希望有更多人了解到开源人背后的故事和付出,也希望可以影响更多人参与到开源的事业中。专题地址:https://developer.aliyun.com/topic/opensourcefolkstalk
全景低侵扰的系统时延观测技术实践|龙蜥MeetUp
指出在泛在智算场景下,实时推理等业务对系统时延敏感,影响体验与收益,且随着AI技术发展,推理服务下沉为基础设施,时延稳定性决定上层应用可靠性。然而,传统观测工具难以兼顾精确性、完整性和低开销,导致生产环境时延问题难定位优化。分享了全景低侵扰系统时延观测技术的实践:构建轻量化、可部署的时延分析框架,覆盖CPU调度到网络IO的全栈追踪,为系统性降低非预期时延干扰提供观测依据。实践表明该方案在性能损耗可控前提下,显著提升运维效率,为泛在智算提供高稳定、低抖动的OS支撑。
操作系统生态兼容与创新的平衡艺术
操作系统生态的发展离不开兼容性与创新的平衡,这是一项复杂的技术挑战。版本隔离、符号版本化等技术解决了版本迭代中的兼容性问题,保障新旧软件共存;通过同源异构和仿真执行,实现了多平台的统一性;通过兼容层和跨平台框架等技术实现了多系统融合,突破了操作系统之间的隔阂。这些技术的实现不仅依赖于工程能力,更需要面向未来的生态思维。兼容性是基础,创新是动力,平衡是关键。唯有技术与生态协同发展,才能构建稳定且充满活力的操作系统生态。
开源社区漏洞治理策略与实践
开源软件供应链非常复杂,存在大量的攻击点,谷歌和微软分别给出了开源供应的 SLSA 框架和 S2C2F 框架,里面存在着漏洞攻击、投毒、过程篡改等风险,加之代码开源漏洞更加透明且容易获取。本次分享聚焦供应链漏洞治理,通过成分分析建立 BOM 体系,识别社区研发过程各个环节风险,通过工程能力提升社区漏洞感知、漏洞可达、漏洞修复,E2E 处理漏洞能力。
加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛
操作系统如何满足 AI 应用场景需求?未来发展趋势如何?2024 龙蜥操作系统大会上,龙蜥社区副理事长张东分享了题为《智算引领 系统创新》的主题演讲,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。
阿里云与龙蜥携手打造智算时代最佳服务器操作系统
阿里云基础软件部产品总监张鹏程从阿里云和龙蜥的角度,详细介绍了在共建服务器操作系统这条路线上走过的历程,以及未来的发展方向。随着 AI 时代推动云计算迎来第三次浪潮,借力"云+AI"趋势,阿里云携手龙蜥打造云上体验最佳的服务器操作系统 - Alibaba Cloud Linux/Anolis OS。经过 15 年的经验积累,阿里云明确了一个新兴方向和四大战略领域,形成 1+4 开源战略。开源是系统软件的源头活水,基于开源的丰饶土壤,阿里云把更多的先进技术传递到整个产业,也通过这样的生态拓展方式,让更多的行业从事者可以去拥抱这些技术和探索产业落地机会。而龙蜥得益于治理模式的成功和商业+开源的双轮驱动,已经成为国内活跃贡献机构最多、最多样化的社区,在云智融合浪潮下迈向高质量发展阶段。
"芯""蜥"相通 融合创新 -- 携手阿里云 释放Intel平台算力
首先介绍了 Intel 第四代至强可扩展处理器(代号 Sapphire Rapids,SPR)以及刚发布不久的第五代至强可扩展处理器(代号 EMR)的核心特性,包括 AMX、QAT、DSA、IAA、TDX 等。然后总结了英特尔与阿里云在 OpenAnolis 社区的合作推进这些特性使能的成果, 通过双方的努力,大部分新功能已在阿里云上启用并落地。 最后,介绍了在阿里云 ECS g8i 实例上利用新特性的三个最佳实践,以此展示新特性可以带来多么令人印象深刻的提升。
低延迟高密度的云原生系统|2023龙蜥操作系统大会
云原生是新一代云计算的主要形态,其中用户应用具有低延迟响应的核心需求,云平台具有高密度部署的核心需求。为满足上述需求,面临着复杂工作流调度、高密高并发启动、低冲突混合部署、动态瓶颈消除的技术难题。该报告介绍了微服务工作流高效调度、容器运行时及启动优化、共享资源隔离管控、QoS 快速恢复等方面所进行的系列研究,有效地解决了上述难题。
Gartner 2023 可观测性魔力象限解读和启示 | 龙蜥社区系统运维 MeetUp
围绕 Gartner 关于 APM 和可观测性魔力象限谈了谈他的一些想法。据 2023 年最新的可观测性魔力象限报告显示,目前,其已受到社会各界广泛关注,市场空间占比也很大,而入选魔力象限可分为“技术”和“非技术”两项指标。接着,他详细介绍了 Leader 象限供应商的特点、Visionaries 象限供应商的前瞻性、Niche Players 象限解决了用户哪些痛点等。最后总结了可观测性的发展趋势。
机器学习算法在系统参数调优的实践介绍 | 龙蜥大讲堂第 59 期
系统参数调优的需求随着系统复杂度升高和服务供应 serverless 化愈发迫切,与此同时,系统参数调优的实践中对当前算法提出了诸多挑战。根据我们在系统参数调优中的实践积累,针对提炼的主要挑战,在 KeenTune 给出了相应的算法导向的解决方案和未来的发展方向。
bclinux-sysmt 跨版本升级 OS 流程解析 | 龙蜥大讲堂第 56 期
bclinux-sysmt 基于开源 leapp 框架,适配多种操作系统升级场景,提供从 CentOS / BC Linux 7.x 等到 BC Linux 8.2 版本就地跨版本升级的功能。本次分享将介绍 bclinux-sysmt 的工作流程和实践经验。
eBPF Hardware Offloading | 龙蜥大讲堂53期
在如今 CPU 算力非常宝贵的场景下,eBPF 程序如果能卸载到硬件去执行,那将会带来非常大的收益。 以前我们都专注于 eBPF 在跟踪、诊断、网络及安全上的应用,本次王璞老师将在eBPF 的指令架构以及如何实现 eBPF 的硬件卸载等方面给我们带来很不一样的技术分享。
千万级可观测采集器—iLogtail功能介绍与入门
作为阿里内部可观测数据采集的基础设施,iLogtail 承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。iLogtail 运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据,目前已经有千万级的安装量,每天采集数十 PB 的可观测数据,广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景。
英特尔 x86 平台上,AI 能力是如何进行演进的?|龙蜥大讲堂第4期
AI 计算力的指数增长意味着,为了解决越来越复杂的用例,即使是 1000 倍的计算性能增长也很容易被消耗。因此,需要通过软件生态系统的助力,才能达到更好的性能。我们相信,构建 AI 软件生态系统,是将人工智能和数据科学项目推向生产的关键。
龙蜥操作系统
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。