专访阿里云:AI 时代服务器操作系统洗牌在即,生态合作重构未来

简介: AI智算时代,服务器操作系统面临的挑战与机遇有哪些?

者按:近日,2024 龙蜥操作系统大会已于北京圆满举办。大会期间,CSDN 采访了阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇,前瞻性宏观解读面向 AI 智算时代,服务器操作系统面临的挑战与机遇。以下为采访全文:



8 月 30 日,2024 龙蜥操作系统大会(OpenAnolis Conference,以下简称“龙蜥大会”)在北京召开,作为国内开源操作系统根社区,龙蜥社区 Anolis OS 及衍生版装机量已突破 800 万套,并在会上推出 Anolis OS 23 官方正式版,全面兼容国内外主流 CPU、GPU 架构。基于“云+AI”创新,龙蜥社区发布“Anolis OS 23 生态衍生计划”“CentOS 替代计划”“AI 应用推广计划”等三大计划,推动开源操作系统实现商业化的良性循环发展。


阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇在大会期间接受 CSDN 采访时表示,大模型引领的 AI 算力基础设施创新需求,正在倒逼服务器操作系统从云原生系统向 AI 系统全面进化,市场或将重新洗牌,开源操作系统有望在未来智算体系中占据统治地位。


作为现代计算产业产业链重要的一环,服务器操作系统历经半个世纪的发展,从 UNIX 到商业 Windows Server 系列、开源 Linux 各类知名的发行版,在此前的互联网时代已经成熟。但随着 AI 时代的到来,阿里云结合通义、龙蜥社区的实践与发展,认识到了服务器操作系统在复杂 AI 基础设施体系中存在可靠性、稳定性、算力利用率、智能运维等新需求杨勇希望通过龙蜥大会将这些趋势判断传递出去,壮大社区生态,携手布局智算未来。

AI 算力猛增倒逼操作系统全链路优化

龙蜥社区成立于 2020 年,其发起龙蜥操作系统 Anolis OS 项目的首先要做的是平替当年宣布将停服的 CentOS。到今年 6 月 30 日,此前占据国内主流地位的 CentOS 7 的生命周期已正式画上句号,杨勇表示,结合现代云计算技术的发展,龙蜥社区已积累了完备的替换迁移技术,针对业务系统迁移的核心挑战,形成了平替、升级和安全接管三类方案,能够在保证业务连续性、稳定性的前提下护航企业顺利迁移。他透露,在阿里云平台上,龙蜥和阿里云版本操作系统的部署数量,已于 2023 年超过了 CentOS。


新兴业务通常基于 Java 与 Go 语言构建,较为容易基于社区服务实现自助迁移,而传统 C/C++ 业务迁移需要应用开发者配合,可能由于应用源代码遗失等原因需要更专业的服务,杨勇表示,龙蜥社区平台可以将这些需求导向到社区理事单位、合作伙伴提供的商业服务,这很好地保障了社区生态的健康发展和企业的成熟应用。


作为一个技术与产品并重的社区,龙蜥社区目前更为关注的是云原生、AI 技术趋势对服务器操作系统的冲击。AI 大模型的落地,需要构建 AI 智算集群,满足大模型开发、部署、训练和推理场景的需要,算力需求远超此前的 AI 技术。在杨勇看来,大模型算力集群规模猛增意味着新的稳定性挑战,这是 AI 基础设施面临的首要问题,需要管理软硬件资源的操作系统可和上层负责运维 AI 的平台协同解决。


同时,AI 基础设施还在操作系统之上架构了一个集群调度层和 AI 框架,形成一个复杂多层的软件栈,算力资源利用率的主要瓶颈便从芯片转移到了数据流动链路,即模型训练、推理时,数据如何在硬件和软件多层之间高效传递,这涉及异构硬件、操作系统和上层应用的协同,是一个全链路的优化工作。


此外,云原生分布式系统的可观测性、故障预警、问题诊断、故障自愈、智能运维以及结合 AI 技术的落地,如 OS Colpilot、AIOps,也是很大的挑战。

壮大社区生态,布局前沿技术

要完成上述技术突破,推进 AI 基础设施革命,杨勇认为,需要整个产业“疯狂地迭代”。事实上,在龙蜥社区,来自阿里云以外的贡献,目前在内核侧占到了 53%, 在核外软件包侧占到了 34%。

作为龙蜥社区技术委员会主席,杨勇希望通过龙蜥大会这样的平台,以有效的组织将 AI、云等技术判断清晰传递给合作伙伴、用户和开发者,强化牵引作用,吸引更多志同道合的人参与龙蜥社区,加入到疯狂的迭代进程。


对于阿里云与龙蜥社区生态中的双重关系,杨勇总结为核心贡献者和受益者。“随着龙蜥社区生态的发展,各个参与者,也包括阿里云,从中获得越来越多的收益。”杨勇说。例如,浪潮信息在龙蜥社区硬件兼容性的贡献,使得阿里云系统能够更加顺利地部署到客户拥有的浪潮服务器上。


疯狂的迭代从何处着手?阿里云给出的答案,是能够提升 AI 算力性能和可靠性的前沿硬件技术,例如高速的互联总线、数据中心的网络带宽能力大幅提升,带来的系统层面的问题。此外,就是 AI 基础设施新场景下带来的不同的优化思路。从历史的观点来看,通用 CPU 的能力按照摩尔定律持续提升、虚拟化、容器化的应用生态发展等都已证明,操作系统的发展驱动力与创新节奏,与硬件或应用软件这两个因素息息相关。


另外的一个具体案例是 DPU,在一些厂商的方案里,高带宽 RDMA 高速网络就是由 DPU 管理的。而实现 CPU 和 GPU 高速互联支撑训练推理一体、成为技术护城河的高速互联技术(NVLink),也是这样一种硬件技术。


“AI 算力发展还处在早期,由先进的硬件技术驱动的服务操作系统创新尚未真正来临,”杨勇大胆预测说,未来这个领域将充满无数可能,包括在算力管理、运维管理中如何兼容乃至抽象屏蔽 AI 时代的各种新硬件。

—— 完 ——


相关文章
|
10天前
|
自然语言处理 监控 数据可视化
如何建设网站:使用阿里云的服务器网站建设5大步骤
企业用阿里云服务器建网站,无需复杂技术,按五步骤即可。先规划需求明确网站功能;再选入门级服务器并初始化;接着部署 PageAdmin CMS,可视化操作易上手;然后选模板填内容搭建网站;最后测试适配与稳定性,绑定域名备案后上线。PageAdmin 还方便后期维护调整。
165 10
|
11天前
|
弹性计算 Windows
阿里云香港服务器收费价格:香港ECS和轻量应用服务器配置介绍
2025年阿里云香港服务器优惠汇总:ECS 2核4G+5M带宽仅199元/年;轻量服务器30M带宽24元/月起,200M峰值带宽25元/月起。轻量性价比高,适合个人及中小企业建站、跨境业务,具体配置价格详见官方活动页。
237 1
|
19天前
|
开发框架 JavaScript .NET
阿里云轻量应用服务器2核2G38元1年起怎么样?性能、应用场景与购买价值参考
目前在阿里云的活动中,抢购价为38元1年的轻量应用服务器受到了众多个人和中小企业用户的高度关注,该款轻量应用服务器置为2核CPU、2G内存,峰值带宽达200M。那么,此款轻量应用服务器的具体性能如何?适用于哪些应用场景?是否具备较高的购买价值?本文将针对这款特惠轻量应用服务器展开全面且深入的测评与介绍。
305 30
阿里云轻量应用服务器2核2G38元1年起怎么样?性能、应用场景与购买价值参考
|
22天前
|
存储 缓存 数据挖掘
阿里云轻量应用服务器“CPU优化型”配置介绍、费用价格说明
阿里云轻量应用服务器推出CPU优化型,提供更强计算性能,2核4GB起,最高16核64GB,全系支持200Mbps带宽。适用于企业级应用、数据库、游戏服务器等高算力场景,保障稳定高效运行。
178 1
|
24天前
|
存储 弹性计算 应用服务中间件
阿里云轻量应用服务器与云服务器ECS有何区别?轻量应用服务器性能、优势与收费价格参考
2025年,阿里云轻量应用服务器2核2G3M带宽搭配40GB ESSD云盘的配置,每天10点和15点开启的抢购价只要38元1年,新用户非抢购专属优惠价也只要68元1年。对于一些初次接触阿里云轻量应用服务器的用户来说,可能不是很清楚它与云服务器ECS有什么不同?选择轻量应用服务器有哪些优势,本文为大家介绍轻量应用服务器的性能、适用场景、优势、收费标准以及与云服务器ECS之间的区别,以供参考。
|
1月前
|
机器学习/深度学习 存储 人工智能
AI 视频检测:重构食品质检体系,破解大规模生产品质难题
AI视频检测技术助力食品行业质检升级,通过实时感知、精准识别与数据驱动,实现从加工到成品的全流程智能管控,解决传统质检效率低、标准不统一等问题。
203 0
|
1月前
|
弹性计算 Devops Shell
用阿里云 DevOps Flow 实现 ECS 部署自动化:从准备到落地的完整指南
阿里云 DevOps Flow 是一款助力开发者实现自动化部署的高效工具,支持代码流水线构建、测试与部署至ECS实例,显著提升交付效率与稳定性。本文详解如何通过 Flow 自动部署 Bash 脚本至 ECS,涵盖环境准备、流水线搭建、源码接入、部署流程设计及结果验证,助你快速上手云上自动化运维。
131 0
人工智能 运维 架构师
211 0
|
1月前
|
存储 域名解析 弹性计算
阿里云上云流程参考:云服务器+域名+备案+域名解析绑定,全流程图文详解
对于初次通过阿里云完成上云的企业和个人用户来说,很多用户不仅是需要选购云服务器,同时还需要注册域名以及完成备案和域名的解析相关流程,从而实现网站的上线。本文将以上云操作流程为核心,结合阿里云的活动政策与用户系统梳理云服务器选购、域名注册、备案申请及域名绑定四大关键环节,以供用户完成线上业务部署做出参考。
|
1月前
|
存储 缓存 安全
阿里云企业级云服务器收费标准、选型指南与活动价格参考
2025年租用阿里云企业级云服务器,用户可以选择多种实例类型和配置,以满足不同规模和需求的企业应用。目前在阿里云的活动中提供了包括通用算力型u1、通用型g9i与g8y、计算型c9i与c8y、内存型r9i等在内的多种企业级云服务器实例,例如,通用算力型u1实例2核4G5M带宽80G ESSD Entry云盘特惠价199元1年,计算型c9i实例2核4G活动价为1686.70元/1年起,通用型g9i实例2核8G活动价为2097.69元/1年起。本文将详细解析阿里云企业级云服务器的价格体系,涵盖实例规格、收费标准与活动及选型指南等,以供了解和参考。

推荐镜像

更多
下一篇
oss教程