专访阿里云:AI 时代服务器操作系统洗牌在即,生态合作重构未来

简介: AI智算时代,服务器操作系统面临的挑战与机遇有哪些?

编者按:近日,2024 龙蜥操作系统大会已于北京圆满举办。大会期间,CSDN 采访了阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇,前瞻性宏观解读面向 AI 智算时代,服务器操作系统面临的挑战与机遇。以下为采访全文:

8 月 30 日,2024 龙蜥操作系统大会(OpenAnolis Conference,以下简称“龙蜥大会”)在北京召开,作为国内开源操作系统根社区,龙蜥社区 Anolis OS 及衍生版装机量已突破 800 万套,并在会上推出 Anolis OS 23 官方正式版,全面兼容国内外主流 CPU、GPU 架构。基于“云+AI”创新,龙蜥社区发布“Anolis OS 23 生态衍生计划”“CentOS 替代计划”“AI 应用推广计划”等三大计划,推动开源操作系统实现商业化的良性循环发展。


阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇在大会期间接受 CSDN 采访时表示,大模型引领的 AI 算力基础设施创新需求,正在倒逼服务器操作系统从云原生系统向 AI 系统全面进化,市场或将重新洗牌,开源操作系统有望在未来智算体系中占据统治地位。


作为现代计算产业产业链重要的一环,服务器操作系统历经半个世纪的发展,从 UNIX 到商业 Windows Server 系列、开源 Linux 各类知名的发行版,在此前的互联网时代已经成熟。但随着 AI 时代的到来,阿里云结合通义、龙蜥社区的实践与发展,认识到了服务器操作系统在复杂 AI 基础设施体系中存在可靠性、稳定性、算力利用率、智能运维等新需求杨勇希望通过龙蜥大会将这些趋势判断传递出去,壮大社区生态,携手布局智算未来。

AI 算力猛增倒逼操作系统全链路优化

龙蜥社区成立于 2020 年,其发起龙蜥操作系统 Anolis OS 项目的首先要做的是平替当年宣布将停服的 CentOS。到今年 6 月 30 日,此前占据国内主流地位的 CentOS 7 的生命周期已正式画上句号,杨勇表示,结合现代云计算技术的发展,龙蜥社区已积累了完备的替换迁移技术,针对业务系统迁移的核心挑战,形成了平替、升级和安全接管三类方案,能够在保证业务连续性、稳定性的前提下护航企业顺利迁移。他透露,在阿里云平台上,龙蜥和阿里云版本操作系统的部署数量,已于 2023 年超过了 CentOS。


新兴业务通常基于 Java 与 Go 语言构建,较为容易基于社区服务实现自助迁移,而传统 C/C++ 业务迁移需要应用开发者配合,可能由于应用源代码遗失等原因需要更专业的服务,杨勇表示,龙蜥社区平台可以将这些需求导向到社区理事单位、合作伙伴提供的商业服务,这很好地保障了社区生态的健康发展和企业的成熟应用。


作为一个技术与产品并重的社区,龙蜥社区目前更为关注的是云原生、AI 技术趋势对服务器操作系统的冲击。AI 大模型的落地,需要构建 AI 智算集群,满足大模型开发、部署、训练和推理场景的需要,算力需求远超此前的 AI 技术。在杨勇看来,大模型算力集群规模猛增意味着新的稳定性挑战,这是 AI 基础设施面临的首要问题,需要管理软硬件资源的操作系统可和上层负责运维 AI 的平台协同解决。


同时,AI 基础设施还在操作系统之上架构了一个集群调度层和 AI 框架,形成一个复杂多层的软件栈,算力资源利用率的主要瓶颈便从芯片转移到了数据流动链路,即模型训练、推理时,数据如何在硬件和软件多层之间高效传递,这涉及异构硬件、操作系统和上层应用的协同,是一个全链路的优化工作。


此外,云原生分布式系统的可观测性、故障预警、问题诊断、故障自愈、智能运维以及结合 AI 技术的落地,如 OS Colpilot、AIOps,也是很大的挑战。

壮大社区生态,布局前沿技术

要完成上述技术突破,推进 AI 基础设施革命,杨勇认为,需要整个产业“疯狂地迭代”。事实上,在龙蜥社区,来自阿里云以外的贡献,目前在内核侧占到了 53%, 在核外软件包侧占到了 34%。

作为龙蜥社区技术委员会主席,杨勇希望通过龙蜥大会这样的平台,以有效的组织将 AI、云等技术判断清晰传递给合作伙伴、用户和开发者,强化牵引作用,吸引更多志同道合的人参与龙蜥社区,加入到疯狂的迭代进程。


对于阿里云与龙蜥社区生态中的双重关系,杨勇总结为核心贡献者和受益者。“随着龙蜥社区生态的发展,各个参与者,也包括阿里云,从中获得越来越多的收益。”杨勇说。例如,浪潮信息在龙蜥社区硬件兼容性的贡献,使得阿里云系统能够更加顺利地部署到客户拥有的浪潮服务器上。


疯狂的迭代从何处着手?阿里云给出的答案,是能够提升 AI 算力性能和可靠性的前沿硬件技术,例如高速的互联总线、数据中心的网络带宽能力大幅提升,带来的系统层面的问题。此外,就是 AI 基础设施新场景下带来的不同的优化思路。从历史的观点来看,通用 CPU 的能力按照摩尔定律持续提升、虚拟化、容器化的应用生态发展等都已证明,操作系统的发展驱动力与创新节奏,与硬件或应用软件这两个因素息息相关。


另外的一个具体案例是 DPU,在一些厂商的方案里,高带宽 RDMA 高速网络就是由 DPU 管理的。而实现 CPU 和 GPU 高速互联支撑训练推理一体、成为技术护城河的高速互联技术(NVLink),也是这样一种硬件技术。


“AI 算力发展还处在早期,由先进的硬件技术驱动的服务操作系统创新尚未真正来临,”杨勇大胆预测说,未来这个领域将充满无数可能,包括在算力管理、运维管理中如何兼容乃至抽象屏蔽 AI 时代的各种新硬件。

—— 完 ——

相关文章
|
14天前
|
云安全 人工智能 安全
阿里云欧阳欣:AI时代下的安全新范式
2024 云栖大会技术主论坛重磅发布
285 4
阿里云欧阳欣:AI时代下的安全新范式
|
12天前
|
人工智能 运维 安全
世界级大模型群,进化阿里云服务器操作系统新范式
世界级大模型群,进化阿里云服务器操作系统新范式
|
11天前
|
人工智能 运维 大数据
阿里云“触手可及,函数计算玩转 AI 大模型”解决方案评测报告
阿里云“触手可及,函数计算玩转 AI 大模型”解决方案评测报告
23 2
|
11天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
2024年云栖大会,我们总结过往支持AI智算基础底座的实践经验、发现与思考,给出《容器服务在AI智算场景的创新与实践》的演讲。不仅希望将所做所想与客户和社区分享,也期待引出更多云原生AI领域的交流和共建。
|
12天前
|
云安全 人工智能 安全
AI时代云安全新范式,阿里云安全能力全线升级!
AI时代,云安全面临着新的挑战,不仅要持续面对以往的传统问题,更需要全新理念落地于产品设计、技术演进、架构设计,才能实现效果、性能、和成本的最优解。
43 0
|
12天前
|
人工智能 关系型数据库 分布式数据库
用友X阿里云:加速AI in SaaS
在今年的云栖大会上,用友公司与阿里云共同宣布将进一步加深合作,推动用友BIP与阿里云深度融合,以SaaS模式为诸多大中型企业客户提供一体化解决方案。同时,通义大模型已作为底层基础大模型集成到用友企业服务大模型YonGPT,加速企业数智化转型。
33 0
|
28天前
|
Cloud Native Java 编译器
将基于x86架构平台的应用迁移到阿里云倚天实例云服务器参考
随着云计算技术的不断发展,云服务商们不断推出高性能、高可用的云服务器实例,以满足企业日益增长的计算需求。阿里云推出的倚天实例,凭借其基于ARM架构的倚天710处理器,提供了卓越的计算能力和能效比,特别适用于云原生、高性能计算等场景。然而,有的用户需要将传统基于x86平台的应用迁移到倚天实例上,本文将介绍如何将基于x86架构平台的应用迁移到阿里云倚天实例的服务器上,帮助开发者和企业用户顺利完成迁移工作,享受更高效、更经济的云服务。
将基于x86架构平台的应用迁移到阿里云倚天实例云服务器参考
|
26天前
|
编解码 前端开发 安全
通过阿里云的活动购买云服务器时如何选择实例、带宽、云盘
在我们选购阿里云服务器的过程中,不管是新用户还是老用户通常都是通过阿里云的活动去买了,一是价格更加实惠,二是活动中的云服务器配置比较丰富,足可以满足大部分用户的需求,但是面对琳琅满目的云服务器实例、带宽和云盘选项,如何选择更适合自己,成为许多用户比较关注的问题。本文将介绍如何在阿里云的活动中选择合适的云服务器实例、带宽和云盘,以供参考和选择。
通过阿里云的活动购买云服务器时如何选择实例、带宽、云盘
|
24天前
|
弹性计算 运维 安全
阿里云轻量应用服务器和经济型e实例区别及选择参考
目前在阿里云的活动中,轻量应用服务器2核2G3M带宽价格为82元1年,2核2G3M带宽的经济型e实例云服务器价格99元1年,对于云服务器配置和性能要求不是很高的阿里云用户来说,这两款服务器配置和价格都差不多,阿里云轻量应用服务器和ECS云服务器让用户二选一,很多用户不清楚如何选择,本文来说说轻量应用服务器和经济型e实例的区别及选择参考。
阿里云轻量应用服务器和经济型e实例区别及选择参考
|
25天前
|
机器学习/深度学习 存储 人工智能
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
阿里云的GPU云服务器产品线在深度学习、科学计算、图形渲染等多个领域展现出强大的计算能力和广泛的应用价值。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
下一篇
无影云桌面