专访阿里云:AI 时代服务器操作系统洗牌在即,生态合作重构未来

简介: AI智算时代,服务器操作系统面临的挑战与机遇有哪些?

者按:近日,2024 龙蜥操作系统大会已于北京圆满举办。大会期间,CSDN 采访了阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇,前瞻性宏观解读面向 AI 智算时代,服务器操作系统面临的挑战与机遇。以下为采访全文:



8 月 30 日,2024 龙蜥操作系统大会(OpenAnolis Conference,以下简称“龙蜥大会”)在北京召开,作为国内开源操作系统根社区,龙蜥社区 Anolis OS 及衍生版装机量已突破 800 万套,并在会上推出 Anolis OS 23 官方正式版,全面兼容国内外主流 CPU、GPU 架构。基于“云+AI”创新,龙蜥社区发布“Anolis OS 23 生态衍生计划”“CentOS 替代计划”“AI 应用推广计划”等三大计划,推动开源操作系统实现商业化的良性循环发展。


阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇在大会期间接受 CSDN 采访时表示,大模型引领的 AI 算力基础设施创新需求,正在倒逼服务器操作系统从云原生系统向 AI 系统全面进化,市场或将重新洗牌,开源操作系统有望在未来智算体系中占据统治地位。


作为现代计算产业产业链重要的一环,服务器操作系统历经半个世纪的发展,从 UNIX 到商业 Windows Server 系列、开源 Linux 各类知名的发行版,在此前的互联网时代已经成熟。但随着 AI 时代的到来,阿里云结合通义、龙蜥社区的实践与发展,认识到了服务器操作系统在复杂 AI 基础设施体系中存在可靠性、稳定性、算力利用率、智能运维等新需求杨勇希望通过龙蜥大会将这些趋势判断传递出去,壮大社区生态,携手布局智算未来。

AI 算力猛增倒逼操作系统全链路优化

龙蜥社区成立于 2020 年,其发起龙蜥操作系统 Anolis OS 项目的首先要做的是平替当年宣布将停服的 CentOS。到今年 6 月 30 日,此前占据国内主流地位的 CentOS 7 的生命周期已正式画上句号,杨勇表示,结合现代云计算技术的发展,龙蜥社区已积累了完备的替换迁移技术,针对业务系统迁移的核心挑战,形成了平替、升级和安全接管三类方案,能够在保证业务连续性、稳定性的前提下护航企业顺利迁移。他透露,在阿里云平台上,龙蜥和阿里云版本操作系统的部署数量,已于 2023 年超过了 CentOS。


新兴业务通常基于 Java 与 Go 语言构建,较为容易基于社区服务实现自助迁移,而传统 C/C++ 业务迁移需要应用开发者配合,可能由于应用源代码遗失等原因需要更专业的服务,杨勇表示,龙蜥社区平台可以将这些需求导向到社区理事单位、合作伙伴提供的商业服务,这很好地保障了社区生态的健康发展和企业的成熟应用。


作为一个技术与产品并重的社区,龙蜥社区目前更为关注的是云原生、AI 技术趋势对服务器操作系统的冲击。AI 大模型的落地,需要构建 AI 智算集群,满足大模型开发、部署、训练和推理场景的需要,算力需求远超此前的 AI 技术。在杨勇看来,大模型算力集群规模猛增意味着新的稳定性挑战,这是 AI 基础设施面临的首要问题,需要管理软硬件资源的操作系统可和上层负责运维 AI 的平台协同解决。


同时,AI 基础设施还在操作系统之上架构了一个集群调度层和 AI 框架,形成一个复杂多层的软件栈,算力资源利用率的主要瓶颈便从芯片转移到了数据流动链路,即模型训练、推理时,数据如何在硬件和软件多层之间高效传递,这涉及异构硬件、操作系统和上层应用的协同,是一个全链路的优化工作。


此外,云原生分布式系统的可观测性、故障预警、问题诊断、故障自愈、智能运维以及结合 AI 技术的落地,如 OS Colpilot、AIOps,也是很大的挑战。

壮大社区生态,布局前沿技术

要完成上述技术突破,推进 AI 基础设施革命,杨勇认为,需要整个产业“疯狂地迭代”。事实上,在龙蜥社区,来自阿里云以外的贡献,目前在内核侧占到了 53%, 在核外软件包侧占到了 34%。

作为龙蜥社区技术委员会主席,杨勇希望通过龙蜥大会这样的平台,以有效的组织将 AI、云等技术判断清晰传递给合作伙伴、用户和开发者,强化牵引作用,吸引更多志同道合的人参与龙蜥社区,加入到疯狂的迭代进程。


对于阿里云与龙蜥社区生态中的双重关系,杨勇总结为核心贡献者和受益者。“随着龙蜥社区生态的发展,各个参与者,也包括阿里云,从中获得越来越多的收益。”杨勇说。例如,浪潮信息在龙蜥社区硬件兼容性的贡献,使得阿里云系统能够更加顺利地部署到客户拥有的浪潮服务器上。


疯狂的迭代从何处着手?阿里云给出的答案,是能够提升 AI 算力性能和可靠性的前沿硬件技术,例如高速的互联总线、数据中心的网络带宽能力大幅提升,带来的系统层面的问题。此外,就是 AI 基础设施新场景下带来的不同的优化思路。从历史的观点来看,通用 CPU 的能力按照摩尔定律持续提升、虚拟化、容器化的应用生态发展等都已证明,操作系统的发展驱动力与创新节奏,与硬件或应用软件这两个因素息息相关。


另外的一个具体案例是 DPU,在一些厂商的方案里,高带宽 RDMA 高速网络就是由 DPU 管理的。而实现 CPU 和 GPU 高速互联支撑训练推理一体、成为技术护城河的高速互联技术(NVLink),也是这样一种硬件技术。


“AI 算力发展还处在早期,由先进的硬件技术驱动的服务操作系统创新尚未真正来临,”杨勇大胆预测说,未来这个领域将充满无数可能,包括在算力管理、运维管理中如何兼容乃至抽象屏蔽 AI 时代的各种新硬件。

—— 完 ——


相关文章
|
8天前
|
人工智能 JSON 自然语言处理
基于阿里云通义千问的AI模型应用开发指南
阿里云通义千问是阿里巴巴集团推出的多模态大语言模型平台,提供了丰富的API和接口,支持多种AI应用场景,如文本生成、图像生成和对话交互等。本文将详细介绍阿里云通义千问的产品功能,并展示如何使用其API来构建一个简单的AI应用,包括程序代码和具体操作流程,以帮助开发者快速上手。
82 3
|
5天前
|
存储 人工智能 自然语言处理
Elasticsearch Inference API增加对阿里云AI的支持
本文将介绍如何在 Elasticsearch 中设置和使用阿里云的文本生成、重排序、稀疏向量和稠密向量服务,提升搜索相关性。
40 14
Elasticsearch Inference API增加对阿里云AI的支持
|
2天前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
2天前
|
存储 弹性计算 NoSQL
"从入门到实践,全方位解析云服务器ECS的秘密——手把手教你轻松驾驭阿里云的强大计算力!"
【10月更文挑战第23天】云服务器ECS(Elastic Compute Service)是阿里云提供的基础云计算服务,允许用户在云端租用和管理虚拟服务器。ECS具有弹性伸缩、按需付费、简单易用等特点,适用于网站托管、数据库部署、大数据分析等多种场景。本文介绍ECS的基本概念、使用场景及快速上手指南。
16 3
|
8天前
|
存储 弹性计算 编解码
通过阿里云的活动租赁云服务器时如何选择实例规格?选择指南参考
新手用户通过阿里云的活动租赁云服务器的时候实例规格应该怎么选?目前在阿里云的活动中,可选的云服务器类型除了轻量应用服务器之外,云服务器的主要实例规格有经济型e、通用算力型u1和计算型c7与c8y、通用型g7与g8y、内存型r7与r8y等实例,但是对于新手来说,由于是初次购买,实例规格往往不知道怎么选择了。本文为大家展示阿里云目前活动中各云服务器实例规格性能、适用场景以及选择指南参考。
|
4天前
|
人工智能 架构师
活动火热报名中|阿里云&Elastic:AI Search Tech Day
2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。
|
7天前
|
人工智能 自然语言处理 机器人
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
10月18日, InfoQ《C 位面对面》栏目邀请到阿里云CIO及aliyun.com负责人蒋林泉(花名:雁杨),就AI时代企业CIO的角色转变、企业智能化转型路径、AI落地实践与人才培养等主题展开了讨论。
|
3天前
|
机器学习/深度学习 人工智能 供应链
AI技术在医疗领域的应用与未来展望###
本文深入探讨了人工智能(AI)技术在医疗领域的多种应用及其带来的革命性变化,从疾病诊断、治疗方案优化到患者管理等方面进行了详细阐述。通过具体案例和数据分析,展示了AI如何提高医疗服务效率、降低成本并改善患者体验。同时,文章也讨论了AI技术在医疗领域面临的挑战和未来发展趋势,为行业从业者和研究人员提供参考。 ###
|
3天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗领域的应用与挑战
【10月更文挑战第21天】 本文探讨了人工智能(AI)在医疗领域的多种应用,包括疾病诊断、治疗方案推荐、药物研发和患者管理等。通过分析这些应用案例,我们可以看到AI技术如何提高医疗服务的效率和准确性。然而,AI在医疗领域的广泛应用也面临诸多挑战,如数据隐私保护、算法透明度和伦理问题。本文旨在为读者提供一个全面的视角,了解AI技术在医疗领域的潜力和面临的困难。
|
3天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗健康领域的应用与前景
随着科技的不断进步,人工智能(AI)技术已经深入到我们生活的方方面面,特别是在医疗健康领域。本文将探讨AI在医疗健康领域的应用现状、面临的挑战以及未来的发展前景。