龙蜥副理事长张东:加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统

简介: 操作系统如何满足 AI 应用场景需求?未来发展趋势如何?

AI 原生时代,操作系统厂商要全面优先拥抱 AI,深度融合 AI 能力,发挥关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造最 AI 的服务器操作系统,实现 AI 能力的快速价值转化。


AI 原生趋势下,底层硬件需要提供更复杂的计算资源,包括多元化的通用处理器与 AI 加速芯片、更高效的内存、网络、存储 IO 等等,硬件的变化要求操作系统具备更加有效管理和分配能力,确保 AI 应用的高效运行。


操作系统如何满足 AI 应用场景需求?未来发展趋势如何?2024 龙蜥操作系统大会上,龙蜥社区副理事长张东分享了题为《智算引领 系统创新》的主题演讲,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。以下为演讲全文:

(图/龙蜥社区副理事长张东)

AI 原生化加速,操作系统面临全新挑战

AI 可谓是现在最大的产业变革,带来的影响比以往任何技术都更为深远。甚至就像计算机诞生一样,对于整个人类的发展产生很大的影响。AI 的影响力不仅体现在 IT 领域,它还从根本上改变了很多行业创新和发展模式,成为推动生产力向前发展非常重要的一点,现在国家提出要发展新质生产力,AI 就是新质生产力最典型代表。



目前,AI 已经应用于各个领域,比如,通过 AI 大数据的加持,传统科学研究方法大大加速,让攻克难题成为可能;通过自动化生产线和智能机器人,AI 提高了制造效率和质量控制……



AI 应用的快速发展,对底层硬件需求激增,加速卡、存储的不断增长造成单机功率、密度越来越大,并且数据中心规模不断扩张,而硬件资源扩展对资源调度能力提出考验,操作系统也要随资源变化进行调整。


通过堆砌资源的方式满足 AI 需要的道路很难持续,这个过程中操作系统面临几个挑战:一是对多元算力的支持,操作系统需要协调 CPU、GPU 以及其他专用芯片,如何把算力高效组织起来;二是 AI 本身的编程环境非常复杂,软烟囱林立,用户面临环境选择难题;三是效率、性能的优化和可靠性、稳定性等方面,对操作系统提出更高要求,在出现故障的时候能够快速定位,能够快速恢复;最后,确保 AI 原生的安全,防止数据隐私泄露。

应对AI原生,以应用为导向,以系统为核心创新架构设计

面对 AI 原生化对基础设施带来的变革,浪潮信息提出“以应用为导向,以系统设计为中心,建立多元异构算力融合、软硬协同优化”的技术发展路线,其中,操作系统是软硬协同设计与优化的核心。


 

张东表示:“我们提出以应用为导向,是面向最终的应用场景,以系统为中心,系统则是指包括了服务器整机+操作系统+基础应用环境在内的整体。应对 AI 带来的改变,需要软硬件整体创新来解决。”



围绕着 AI 大模型的训练,浪潮信息从硬件上引入了多项的技术,构建面向大规模计算的融合架构 3.0 系统,通过高速互联总线,对计算、存储进行了解耦,实现内存、存储、异构加速及通用计算等资源池化,支持硬件资源快速部署,完善各类芯片之间的内外部互联,并引入 400G 高速网络及海量存储。

在系统软件层面,对于操作系统进行多项改进。一方面,在 AI 原生背景下,操作系统需要持续演进去满足对异构算力环境的支持,对数据多态、跨模态巨量数据的管理,以及对各种新型融合网络架构支持。再者,大模型的开发涉及到数据准备、模型调整、基础训练、微调训练、模型评估、部署验证、服务发布等复杂的流程,在模型开发过程中,也需要操作系统给予支撑。


同时,AI 的发展也会对操作系统带来的变化,在未来的环境里,算力的维护、管理更加复杂,很多工作靠传统的人工很难实现,AI 可以提供更多的辅助,让数据中心的运维管理,从原来自动化走向智能化,真正实现 AIOps。此外,操作系统的开发也可以利用 AI 进行辅助编程,测试用例的自动生成,帮开发人员自动找到系统 bug。

对此,浪潮信息升级服务器操作系统 KOS,实现多元算力高效调度,通过自动化工具快速配置 AI 开发环境,并在调度、内存管理、网络、IO 方面进行了大量优化,具备了智能运维、系统故障智能定位、自动化部署管理能力。


基于开源开放的理念,浪潮信息积极参与社区工作,围绕技术创新、标准、规范以及生态合作和应用推广进行大量工作。同时,浪潮信息也在推动国内开放计算的体系建设,龙蜥社区及其他开源软件是整个开放计算重要组成部分。

AI 原生 First,打造最 AI 的服务器操作系统

“云+AI”开启算力新时代,龙蜥则让更多 AI 大模型新应用长在创新操作系统上。据了解,龙蜥社区是业界最早展开操作系统 AI 探索的,现已兼容国内外主流 GPU,并针对广泛使用的 AI 框架提供 OpenVino 在内的原生支持。


本次大会,龙蜥社区正式发布了“CentOS 替代计划”“Anolis OS 23生态衍生计划”“AI 应用推广计划”三大计划,并首次公布了“AI 原生操作系统”发展路线,提出 AI 容器镜像、智能运维 AIOps、OS Copilot 文档建设等三大探索方向,加速 AI 与操作系统的融合发展。


作为龙蜥社区副理事长单位,浪潮信息自 2022 年加入社区以来,积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设,获得最佳合作伙伴奖。


“现在操作系统对 AI 的适应实际上还远远不够,操作系统如何进一步真正变成 AI 原生,更好支撑 AI 的训练和推理,还需要更大级别的创新,希望产业界能够形成合力,共同打造最 AI 的服务器操作系统”,张东谈到。


在演讲最后,张东对服务器操作系统及社区发展,提出三大建议:

一是 AI 原生 First,社区要全面优先拥抱 AI,深度融合 AI 能力,发挥操作系统关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造AI场景下原生兼容、稳定的基础软件,实现 AI 能力的快速价值转化;

二是坚持应用导向,强调需求牵引,将社区技术创新与应用场景紧密结合,创新基础软件与硬件、应用之间的协同模式,打造面向领域垂直场景的最优解决方案;

三是强化开放中立,社区撕掉单一厂商标签,强调共治共建共享,建立开放标准,积极与国际领先的社区接轨,保持同步发展,形成繁荣的生态系统。


视频回放、课件获取:

「2024龙蜥大会主论坛」直播回放及技术 PPT上线啦,欢迎点击下方链接观看~

回放链接:https://openanolis.cn/video#1181668776082126612

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

—— 完 ——

目录
打赏
0
1
1
0
1169
分享
相关文章
AI驱动的操作系统服务评测报告
阿里云推出AI驱动的一站式免费操作系统服务套件,包含SysOM管控组件和OS Copilot智能助手,提供集群健康监测、深度系统诊断等功能。通过直观的操作界面和详尽的诊断报告,帮助运维人员优化系统性能,提高工作效率。特别针对EOL操作系统提供订阅管理服务,确保系统安全。整体体验令人满意,但在文档详细度和定制化方面仍有提升空间。
82 14
玩转云服务器——阿里云操作系统控制台体验测评
在云服务器日益普及的背景下,运维人员对操作系统管理工具的要求不断提高。我们需要一款既能直观展示系统状态,又能智能诊断问题,提供专业指导的控制台。阿里云操作系统管理平台正是基于API、SDK、CLI等多种管理方式,致力于提升操作效率,为用户带来全新的系统运维体验。阿里云操作系统控制台凭借便捷易用的设计和高效的管理功能,成为云服务器运维的强力助手。本次测评基于真实体验截图,对其整体表现进行了深入探索。
82 33
分享一个纯净无广、原版操作系统、开发人员工具、服务器等资源免费下载的网站
分享一个纯净无广、原版操作系统、开发人员工具、服务器等资源免费下载的网站
阿里云操作系统控制台——解决服务器磁盘I/O故障
阿里云操作系统控制台——解决服务器磁盘I/O故障
45 12
打造更 AI 的操作系统 《龙蜥+超级探访》第三期走进浪潮信息
且看龙蜥社区如何联合浪潮信息向更高层次的操作系统智能化迈进?
打造更 AI 的操作系统 《龙蜥+超级探访》第三期走进浪潮信息
用户实操:如何以龙蜥操作系统为底座在 CPU 上运行 DeepSeek-R1
介绍如何在 CPU 上使用 llama.cpp 推理 671B 版本的 DeepSeek R1,以及实际效果。
AI驱动的操作系统服务评测报告
作为一位运维工程师,我使用Alibaba Cloud Linux 3操作系统进行云资源的运维和管理。通过控制台可快速开通并管理云资源,界面简洁、功能明确。安装SysOM和OS Copilot组件简单高效,支持实时监控集群健康状况,并提供精准的系统诊断与优化建议。OS Copilot智能助手能有效解答技术问题,提升工作效率。针对EOL系统的订阅服务提供了安全迁移保障。整体体验优秀,尤其适合中小企业降低运维复杂度。建议进一步优化权限管理、增加报告导出功能及增强Copilot交互性。
探索未来:AI驱动的操作系统服务评测
### 探索未来:AI驱动的操作系统服务评测 本文介绍阿里云新推出的AI驱动操作系统服务套件,为运维工程师和开发者提供免费、智能的操作系统管理体验。通过Alibaba Cloud Linux的实际操作,评估其安装便捷性、系统健康监控、智能助手OS Copilot等功能。该服务显著提升了工作效率约30%,并增强了服务可靠性。AI技术的融入使系统管理更加智能化,值得尝试。
89 16
AI 驱动,全面升级!操作系统服务套件体验评测
作为一名运维工程师,我体验了阿里云的操作系统服务套件,选择了Alibaba Cloud Linux作为测试环境。通过安装SysOM和OS Copilot组件,轻松管理集群健康数据、进行系统诊断并获得优化建议。OS Copilot智能解答技术问题,节省查阅资料时间;订阅管理帮助我及时升级操作系统,保障安全。整体功能强大,提升了约20%的工作效率,值得推广。建议增加更多系统版本支持及自动优化功能。

热门文章

最新文章