编者按:云+AI 浪潮势不可挡,服务器操作系统如何进一步演进?阿里云智能集团高级技术专家张金利在 2024 云栖大会操作系统开源专场上,分享了《Alibaba Cloud Linux 技术路线演进思考》。内容见下:
(图/张金利)
在云+AI 时代下,阿里云服务器操作系统 Alibaba Cloud Linux (以下简称 Alinux)基于一云多芯的技术路线开展软硬件协同优化,同时,Alinux 在阿里云上,已经经过通用计算、智能计算、机密计算等多样化场景的实践检验。
阿里云为什么要做操作系统?一方面最初是基于内部的业务需求。随着阿里云内部业务规模扩大,导致算力越来越强,大规模复杂的算力场景对操作系统提出了优化需求,以确保业务稳定、高效地运行。另一方面,随着时代的进步,软件和硬件也在不断发展,软硬一体的协同创新为我们持续进步提供了动力。最后一方面要想实现可持续发展,操作系统除了实现技术上的不断突破,还需要建立在技术路线上的全面自主演进能力。
Alinux 历经三代演进。在过去和现在,Alinux 都支持了大量的内部业务和外部客户,每一代产品随着当时的历史时期有着不同的产品定位,每一代也都有自己的使命。Alinux 第一代为服务内部的业务做技术积累,第二代为大规模的集群场景做优化,开始服务云上客户。演进到第三代,Alinux 已经是一个超大规模的云+AI 综合算力的新场景;同期,龙蜥社区成立。发展至今,龙蜥已推出更安全、更稳定、更 AI 的龙蜥操作系统 Anolis OS 23 官方正式版,采用通用的基于 Linux 6.6 的 ANCK 内核,全面兼容国内外主流 CPU 架构,适配更新、更丰富的 AI 容器服务生态,在操作系统层面首次原生支持 AI 算力调用和应用。Alinux 与 Anolis OS 互相学习、共同进步发展。Alinux 的许多技术创新,经过实践认可与成熟后会经由阿里云贡献到龙蜥社区,而龙蜥社区各成员为 Anolis OS 所做的各种改进和功能,Alinux 也会选择吸收,为自身注入新的活力。截至目前,Alinux 在云上为占比第一的操作系统发行版。
云和 AI 的浪潮势不可挡,服务器操作系统如何进一步演进?接下来分享阿里云在这个问题上的思考。
1. 安全可信:操作系统发展的基石
阿里云在安全方面做了大量工作,这里分享三大点:一是安全合规。今年,阿里云服务器操作系统 V3 通过了国家的安全可靠测评,证明其可以满足政企客户的合规诉求,也可以广泛支撑大规模的关键信息基础设施;第二是供应链安全的平台化建设。操作系统源于开源,是一个庞大的软件包的组合,这个组合里面很多的软件离不开从开源选型。从选型,到过程管理,到修复漏洞、发布 SBOM 都是一个庞大的体系。目前在 SBOM 生成、漏洞修复管理、选型管理上,Alinux 已经可以做到自动化和平台化。第三是安全创新。近期,针对 AI 时代安全可信的需求,Alinux 围绕 AI 做安全可信方面的创新能力,从软硬件协同的角度出发,完成了机密计算在 AI 领域的安全建设。
2. 极致优化:操作系统核心能力的精益求精
操作系统发挥着承上启下作用:“启”动下面的硬件,“承”载上面软件的过程。Alinux 已全面支持国内国外主流 CPU、GPU 芯片硬件,在关键应用上性能再提升 20%,而在数据库这样的关键应用上可达到最多 40% 的性能提升。针对 AI 场景,在训练和推理等通用场景持续积累软件栈(比如 pytorch、tensorflow 等)上的优化技术,单就推理场景而言,在搜推场景的单节点达到 25% 的性能提升,整个集群性能做到了 15% 的性能提升。
3. AI驱动:操作系统与AI的良性循环
System for AI 是用操作系统来支持 AI 的基础设施,AI for System 则借助 AI 能力优化操作系统功能和体验。过去一年,Alinux 在以下 6 个方面,既通过 Alinux 帮助优化了 AI 基础设施,又通过 AI 给操作系统本身带来操作系统智能化的新机会。
- OS&Kernel:主要在 RAS、存储、网络等关键技术上提升 AI 基础设施稳定性与性能。
- AC2:面向 AI 场景的容器镜像。AI 容器镜像是 AI 时代的“RPM 包”,它定义了一种新的开箱即用的分发模式,未来将可成为主流。
- Confidential AI:AI 机密计算方案,提升AI 场景全链路安全水位。
- 轻豚(KeenTune):基于 AI 算法与专家的智能调优工具。
- OS Copilot:操作系统智能助手,提升操作系统使用体验。
- SysOM:智能运维诊断平台,是与 OS Copilot 结合得很好的实践工具,在运维领域有着出色的专业能力。
4. 技术生态:承接龙蜥社区“三大生态计划”
在 2024 龙蜥操作系统大会上,龙蜥社区重磅发布了“CentOS 替代计划”“Anolis OS 23 生态衍生计划”“AI 应用推广计划”三大计划,致力于推动国产操作系统实现从开源到商业化的良性循环发展。而 Alinux 已基于三大计划率先行动,与社区共建可持续生态。
- 在 CentOS 停服替代计划里,Alinux 希望通过安全和多算力支持的方式帮助客户平稳度过 CentOS 停服。同时,还推出一年免费安全接管服务。
- 在 Anolis OS 23 生态衍生计划里,阿里云将会在 2025 年上半年推出第一个技术预览版——V4 版本,这个版本将会是 Anolis OS 23 或者龙蜥社区形成的软硬件技术兼容性规范的落地执行者和坚定推动者。
- 在 AI 应用推广计划中,阿里云将会继续扮演探索者先行者的角色,也会协同社区,助力社区合作伙伴,在技术上继续增强 Copilot 的领域能力,也将思考如何为客户带来商业上的增值空间。
5. Alinux 产品家族,支持云+AI时代多样性应用场景
阿里云在操作系统领域坚持长期主义,Alinux 在十余年的发展历程中不断实现自我进化。在云+AI 的趋势下,Alinux 借助安全可信的基础支撑、极致优化的核心能力、AI 驱动的良性循环,以及龙蜥社区的开放生态,形成了围绕操作系统发行版+云化扩展形态+智能服务套件的完整产品家族,并针对 AI 场景形成端到端的系统安全解决方案。在云计算发展的第三次浪潮中,Alinux 全方位使能一云多芯算力,高效支持云与 AI 多样性应用场景。
2023 年,龙蜥社区联合阿里云云市场发布了「Alibaba Cloud Linux 伙伴招募计划」,该计划将把来自阿里云基础软件、云市场、计算巢等团队的技术积累和推广资源、商业资源,与龙蜥社区开放强大的生态力量和技术协同相结合,号召服务商伙伴们进行共建,让用户享受更好的体验。欢迎广大企业用户加入,共建云上软件生态繁荣。
1.Alibaba Cloud Linux 伙伴招募计划全文
技术PPT获取:关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。
—— 完 ——