专访阿里云:AI 时代服务器操作系统洗牌在即,生态合作重构未来

简介: AI智算时代,服务器操作系统面临的挑战与机遇有哪些?

者按:近日,2024 龙蜥操作系统大会已于北京圆满举办。大会期间,CSDN 采访了阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇,前瞻性宏观解读面向 AI 智算时代,服务器操作系统面临的挑战与机遇。以下为采访全文:



8 月 30 日,2024 龙蜥操作系统大会(OpenAnolis Conference,以下简称“龙蜥大会”)在北京召开,作为国内开源操作系统根社区,龙蜥社区 Anolis OS 及衍生版装机量已突破 800 万套,并在会上推出 Anolis OS 23 官方正式版,全面兼容国内外主流 CPU、GPU 架构。基于“云+AI”创新,龙蜥社区发布“Anolis OS 23 生态衍生计划”“CentOS 替代计划”“AI 应用推广计划”等三大计划,推动开源操作系统实现商业化的良性循环发展。


阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇在大会期间接受 CSDN 采访时表示,大模型引领的 AI 算力基础设施创新需求,正在倒逼服务器操作系统从云原生系统向 AI 系统全面进化,市场或将重新洗牌,开源操作系统有望在未来智算体系中占据统治地位。


作为现代计算产业产业链重要的一环,服务器操作系统历经半个世纪的发展,从 UNIX 到商业 Windows Server 系列、开源 Linux 各类知名的发行版,在此前的互联网时代已经成熟。但随着 AI 时代的到来,阿里云结合通义、龙蜥社区的实践与发展,认识到了服务器操作系统在复杂 AI 基础设施体系中存在可靠性、稳定性、算力利用率、智能运维等新需求杨勇希望通过龙蜥大会将这些趋势判断传递出去,壮大社区生态,携手布局智算未来。

AI 算力猛增倒逼操作系统全链路优化

龙蜥社区成立于 2020 年,其发起龙蜥操作系统 Anolis OS 项目的首先要做的是平替当年宣布将停服的 CentOS。到今年 6 月 30 日,此前占据国内主流地位的 CentOS 7 的生命周期已正式画上句号,杨勇表示,结合现代云计算技术的发展,龙蜥社区已积累了完备的替换迁移技术,针对业务系统迁移的核心挑战,形成了平替、升级和安全接管三类方案,能够在保证业务连续性、稳定性的前提下护航企业顺利迁移。他透露,在阿里云平台上,龙蜥和阿里云版本操作系统的部署数量,已于 2023 年超过了 CentOS。


新兴业务通常基于 Java 与 Go 语言构建,较为容易基于社区服务实现自助迁移,而传统 C/C++ 业务迁移需要应用开发者配合,可能由于应用源代码遗失等原因需要更专业的服务,杨勇表示,龙蜥社区平台可以将这些需求导向到社区理事单位、合作伙伴提供的商业服务,这很好地保障了社区生态的健康发展和企业的成熟应用。


作为一个技术与产品并重的社区,龙蜥社区目前更为关注的是云原生、AI 技术趋势对服务器操作系统的冲击。AI 大模型的落地,需要构建 AI 智算集群,满足大模型开发、部署、训练和推理场景的需要,算力需求远超此前的 AI 技术。在杨勇看来,大模型算力集群规模猛增意味着新的稳定性挑战,这是 AI 基础设施面临的首要问题,需要管理软硬件资源的操作系统可和上层负责运维 AI 的平台协同解决。


同时,AI 基础设施还在操作系统之上架构了一个集群调度层和 AI 框架,形成一个复杂多层的软件栈,算力资源利用率的主要瓶颈便从芯片转移到了数据流动链路,即模型训练、推理时,数据如何在硬件和软件多层之间高效传递,这涉及异构硬件、操作系统和上层应用的协同,是一个全链路的优化工作。


此外,云原生分布式系统的可观测性、故障预警、问题诊断、故障自愈、智能运维以及结合 AI 技术的落地,如 OS Colpilot、AIOps,也是很大的挑战。

壮大社区生态,布局前沿技术

要完成上述技术突破,推进 AI 基础设施革命,杨勇认为,需要整个产业“疯狂地迭代”。事实上,在龙蜥社区,来自阿里云以外的贡献,目前在内核侧占到了 53%, 在核外软件包侧占到了 34%。

作为龙蜥社区技术委员会主席,杨勇希望通过龙蜥大会这样的平台,以有效的组织将 AI、云等技术判断清晰传递给合作伙伴、用户和开发者,强化牵引作用,吸引更多志同道合的人参与龙蜥社区,加入到疯狂的迭代进程。


对于阿里云与龙蜥社区生态中的双重关系,杨勇总结为核心贡献者和受益者。“随着龙蜥社区生态的发展,各个参与者,也包括阿里云,从中获得越来越多的收益。”杨勇说。例如,浪潮信息在龙蜥社区硬件兼容性的贡献,使得阿里云系统能够更加顺利地部署到客户拥有的浪潮服务器上。


疯狂的迭代从何处着手?阿里云给出的答案,是能够提升 AI 算力性能和可靠性的前沿硬件技术,例如高速的互联总线、数据中心的网络带宽能力大幅提升,带来的系统层面的问题。此外,就是 AI 基础设施新场景下带来的不同的优化思路。从历史的观点来看,通用 CPU 的能力按照摩尔定律持续提升、虚拟化、容器化的应用生态发展等都已证明,操作系统的发展驱动力与创新节奏,与硬件或应用软件这两个因素息息相关。


另外的一个具体案例是 DPU,在一些厂商的方案里,高带宽 RDMA 高速网络就是由 DPU 管理的。而实现 CPU 和 GPU 高速互联支撑训练推理一体、成为技术护城河的高速互联技术(NVLink),也是这样一种硬件技术。


“AI 算力发展还处在早期,由先进的硬件技术驱动的服务操作系统创新尚未真正来临,”杨勇大胆预测说,未来这个领域将充满无数可能,包括在算力管理、运维管理中如何兼容乃至抽象屏蔽 AI 时代的各种新硬件。

—— 完 ——


相关文章
|
2天前
|
弹性计算 运维 监控
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
本文介绍了如何通过阿里云获取ECS云服务器并进行操作系统配置与组件安装,以实现高效的资源管理和系统监控。阿里云凭借强大的基础设施和丰富的服务成为用户首选。文中详细描述了获取ECS、RAM授权、开通操作系统控制台及组件安装的步骤,并展示了如何利用控制台实时监控性能指标、诊断系统问题及优化性能。特别针对idle进程进行了深入分析,提出了优化建议。最后,建议定期进行系统健康检查,并希望阿里云能推出更友好的低成本套餐,满足学生等群体的需求。
51 17
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
|
2天前
|
存储 运维 监控
使用阿里云操作系统控制台排查内存溢出
操作系统控制台是阿里云最新推出的一款智能运维工具,专为提升运维效率、优化服务器管理而设计。它集成了多种运维管理功能,包括操作系统助手、插件管理器以及其他实用工具,为用户提供一站式的运维解决方案。无论是个人开发者还是企业运维团队,都可以通过这一平台轻松管理服务器和操作系统。
44 18
 使用阿里云操作系统控制台排查内存溢出
|
2天前
|
弹性计算 监控 安全
实测阿里云操作系统控制台:功能、诊断与优化
阿里云操作系统(AliOS)是阿里巴巴专为物联网和智能设备开发的操作系统,提供高效、安全、智能化的解决方案。本文介绍了如何开通和使用阿里云的云服务器ECS,包括注册、选择操作系统、创建用户及授权等步骤。通过控制台,用户可以实时监控设备状态、管理组件、进行性能诊断,并优化资源使用。掌握这些功能有助于提升系统管理和数据处理能力,满足物联网场景的多样化需求。建议进一步丰富系统健康指标和观测功能,以提供更好的用户体验。
61 24
|
1天前
|
存储 弹性计算 缓存
【阿里云】操作系统控制台深度体验与性能测评
本文介绍了如何通过阿里云控制台高效管理云资源,包括创建云服务器ECS、RAM授权、组件安装、系统诊断和监控等操作。阿里云控制台提供了便捷的操作界面、实时监控功能、高效的管理和安全预警,帮助用户优化云环境性能并确保业务高效运行。通过具体实例,展示了从创建ECS实例到进行系统诊断和观测的全流程,并提供了针对常见性能瓶颈的优化建议。此外,还提出了改进建议,如增加应用示例和报告存储功能,以提升用户体验。
49 21
|
3天前
|
弹性计算 Linux 数据安全/隐私保护
阿里云幻兽帕鲁联机服务器搭建全攻略,速来抄作业!2025新版教程
阿里云提供2025年最新幻兽帕鲁服务器申请购买及一键开服教程。4核16G配置支持8人,70元/月;8核32G配置支持20人,160元/月。选择配置、地域、操作系统后,点击【一键购买及部署】,约3分钟完成创建。本地安装STEAM客户端并登录,进入游戏选择多人模式,输入服务器IP和端口(8211),即可开始游戏。详细教程及更多问题解答请参考阿里云幻兽帕鲁游戏专区。
43 20
|
2天前
|
弹性计算 运维 监控
阿里云操作系统控制台解决网络故障
阿里云操作系统控制台是一款功能强大、操作便捷的云服务器管理平台,专为用户提供高效、智能的运维体验。它不仅支持服务器的创建、配置和监控,还集成了智能诊断、自动化运维和资源优化等高级功能,让云服务器管理变得更加轻松高效。通过直观的界面和丰富的工具,用户可以便捷地管理多台云服务器,实时监控系统性能,并快速定位和解决故障。例如,控制台的智能诊断功能能够自动分析系统异常,并提供优化建议,帮助用户迅速恢复服务。除此之外,控制台还支持批量操作、权限管理和日志分析,充分满足企业级用户的需求。无论是个人开发者还是大型企业,都可以借助阿里云操作系统控制台提升运维效率,降低管理成本,确保业务稳定运行。接下来就让我们
35 17
|
2天前
|
弹性计算 运维 资源调度
使用阿里云操作系统控制台巧解调度抖动
阿里云操作系统控制台是一站式云服务器管理平台,提供性能监控、故障诊断、日志分析、安全管理和资源调度等功能。用户可实时查看CPU、内存等使用情况,快速定位并解决调度抖动等问题。智能诊断工具自动生成优化建议,简化运维流程,降低技术门槛。尽管部分功能仍在优化中,但整体上显著提升了云服务器管理的效率和稳定性。
41 15
|
2天前
|
存储 运维 监控
云服务运维智能时代:阿里云操作系统控制台
阿里云操作系统控制台是一款创新的云服务器运维工具,采用智能化和可视化方式简化运维工作。通过AI技术实时监控服务器状态,自动分析性能瓶颈和故障原因,生成详细的诊断报告与优化建议。用户无需复杂命令行操作,仅需通过图形化界面即可高效处理问题,降低技术门槛并提升故障处理效率。尤其在服务器宕机等紧急情况下,智能诊断工具能快速定位问题根源,确保业务稳定运行。此外,控制台还提供内存、存储、网络等专项诊断功能,帮助用户全面了解系统资源使用情况,进一步优化服务器性能。这种智能化运维方式不仅提升了工作效率,也让个人开发者和企业用户能够更专注于核心业务的发展。
|
2天前
|
存储 人工智能 运维
阿里云操作系统控制台——解决服务器磁盘I/O故障
阿里云操作系统控制台——解决服务器磁盘I/O故障
29 12
|
3天前
|
人工智能 弹性计算 运维
深度评测阿里云操作系统控制台:功能全面,体验卓越!
阿里云操作系统控制台是阿里云提供的高效、稳定、易用的云运维管理平台,结合百万服务器运维经验,提供系统资源监控、问题分析和故障解决功能。用户可通过该平台进行ECS实例管理、组件安装、健康检查、系统诊断及订阅管理等操作,支持API、SDK、CLI等多种管理方式。其界面简洁明了,操作流程直观易懂,适合各层次用户使用。推荐指数:★★★★★(5/5)。
39 9

热门文章

最新文章