龙蜥副理事长张东:加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统

简介: 操作系统如何满足 AI 应用场景需求?未来发展趋势如何?

AI 原生时代,操作系统厂商要全面优先拥抱 AI,深度融合 AI 能力,发挥关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造最 AI 的服务器操作系统,实现 AI 能力的快速价值转化。


AI 原生趋势下,底层硬件需要提供更复杂的计算资源,包括多元化的通用处理器与 AI 加速芯片、更高效的内存、网络、存储 IO 等等,硬件的变化要求操作系统具备更加有效管理和分配能力,确保 AI 应用的高效运行。


操作系统如何满足 AI 应用场景需求?未来发展趋势如何?2024 龙蜥操作系统大会上,龙蜥社区副理事长张东分享了题为《智算引领 系统创新》的主题演讲,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。以下为演讲全文:

(图/龙蜥社区副理事长张东)

AI 原生化加速,操作系统面临全新挑战

AI 可谓是现在最大的产业变革,带来的影响比以往任何技术都更为深远。甚至就像计算机诞生一样,对于整个人类的发展产生很大的影响。AI 的影响力不仅体现在 IT 领域,它还从根本上改变了很多行业创新和发展模式,成为推动生产力向前发展非常重要的一点,现在国家提出要发展新质生产力,AI 就是新质生产力最典型代表。



目前,AI 已经应用于各个领域,比如,通过 AI 大数据的加持,传统科学研究方法大大加速,让攻克难题成为可能;通过自动化生产线和智能机器人,AI 提高了制造效率和质量控制……



AI 应用的快速发展,对底层硬件需求激增,加速卡、存储的不断增长造成单机功率、密度越来越大,并且数据中心规模不断扩张,而硬件资源扩展对资源调度能力提出考验,操作系统也要随资源变化进行调整。


通过堆砌资源的方式满足 AI 需要的道路很难持续,这个过程中操作系统面临几个挑战:一是对多元算力的支持,操作系统需要协调 CPU、GPU 以及其他专用芯片,如何把算力高效组织起来;二是 AI 本身的编程环境非常复杂,软烟囱林立,用户面临环境选择难题;三是效率、性能的优化和可靠性、稳定性等方面,对操作系统提出更高要求,在出现故障的时候能够快速定位,能够快速恢复;最后,确保 AI 原生的安全,防止数据隐私泄露。

应对AI原生,以应用为导向,以系统为核心创新架构设计

面对 AI 原生化对基础设施带来的变革,浪潮信息提出“以应用为导向,以系统设计为中心,建立多元异构算力融合、软硬协同优化”的技术发展路线,其中,操作系统是软硬协同设计与优化的核心。


 

张东表示:“我们提出以应用为导向,是面向最终的应用场景,以系统为中心,系统则是指包括了服务器整机+操作系统+基础应用环境在内的整体。应对 AI 带来的改变,需要软硬件整体创新来解决。”



围绕着 AI 大模型的训练,浪潮信息从硬件上引入了多项的技术,构建面向大规模计算的融合架构 3.0 系统,通过高速互联总线,对计算、存储进行了解耦,实现内存、存储、异构加速及通用计算等资源池化,支持硬件资源快速部署,完善各类芯片之间的内外部互联,并引入 400G 高速网络及海量存储。

在系统软件层面,对于操作系统进行多项改进。一方面,在 AI 原生背景下,操作系统需要持续演进去满足对异构算力环境的支持,对数据多态、跨模态巨量数据的管理,以及对各种新型融合网络架构支持。再者,大模型的开发涉及到数据准备、模型调整、基础训练、微调训练、模型评估、部署验证、服务发布等复杂的流程,在模型开发过程中,也需要操作系统给予支撑。


同时,AI 的发展也会对操作系统带来的变化,在未来的环境里,算力的维护、管理更加复杂,很多工作靠传统的人工很难实现,AI 可以提供更多的辅助,让数据中心的运维管理,从原来自动化走向智能化,真正实现 AIOps。此外,操作系统的开发也可以利用 AI 进行辅助编程,测试用例的自动生成,帮开发人员自动找到系统 bug。

对此,浪潮信息升级服务器操作系统 KOS,实现多元算力高效调度,通过自动化工具快速配置 AI 开发环境,并在调度、内存管理、网络、IO 方面进行了大量优化,具备了智能运维、系统故障智能定位、自动化部署管理能力。


基于开源开放的理念,浪潮信息积极参与社区工作,围绕技术创新、标准、规范以及生态合作和应用推广进行大量工作。同时,浪潮信息也在推动国内开放计算的体系建设,龙蜥社区及其他开源软件是整个开放计算重要组成部分。

AI 原生 First,打造最 AI 的服务器操作系统

“云+AI”开启算力新时代,龙蜥则让更多 AI 大模型新应用长在创新操作系统上。据了解,龙蜥社区是业界最早展开操作系统 AI 探索的,现已兼容国内外主流 GPU,并针对广泛使用的 AI 框架提供 OpenVino 在内的原生支持。


本次大会,龙蜥社区正式发布了“CentOS 替代计划”“Anolis OS 23生态衍生计划”“AI 应用推广计划”三大计划,并首次公布了“AI 原生操作系统”发展路线,提出 AI 容器镜像、智能运维 AIOps、OS Copilot 文档建设等三大探索方向,加速 AI 与操作系统的融合发展。


作为龙蜥社区副理事长单位,浪潮信息自 2022 年加入社区以来,积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设,获得最佳合作伙伴奖。


“现在操作系统对 AI 的适应实际上还远远不够,操作系统如何进一步真正变成 AI 原生,更好支撑 AI 的训练和推理,还需要更大级别的创新,希望产业界能够形成合力,共同打造最 AI 的服务器操作系统”,张东谈到。


在演讲最后,张东对服务器操作系统及社区发展,提出三大建议:

一是 AI 原生 First,社区要全面优先拥抱 AI,深度融合 AI 能力,发挥操作系统关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造AI场景下原生兼容、稳定的基础软件,实现 AI 能力的快速价值转化;

二是坚持应用导向,强调需求牵引,将社区技术创新与应用场景紧密结合,创新基础软件与硬件、应用之间的协同模式,打造面向领域垂直场景的最优解决方案;

三是强化开放中立,社区撕掉单一厂商标签,强调共治共建共享,建立开放标准,积极与国际领先的社区接轨,保持同步发展,形成繁荣的生态系统。


视频回放、课件获取:

「2024龙蜥大会主论坛」直播回放及技术 PPT上线啦,欢迎点击下方链接观看~

回放链接:https://openanolis.cn/video#1181668776082126612

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

—— 完 ——

相关文章
|
9天前
|
安全 Anolis
龙蜥社区落地开源生态发展合作倡议,构建开放兼容的操作系统生态
通过共同努力,三个社区基于服务器操作系统场景,在操作系统内核等关键共性技术链统一方面达成了一致。
|
3天前
|
人工智能 关系型数据库 OLAP
通义百炼融合AnalyticDB,10分钟创建网站AI助手
本文介绍了如何在百炼平台上创建和配置AI助手,使其能够准确回答公司产品的相关问题。主要步骤包括:开通管理控制台、创建应用并部署示例网站、配置知识库、上传产品介绍数据、创建AnalyticDB PostgreSQL实例、导入知识文件、启用知识检索增强功能,并最终测试AI助手的回答效果。通过这些步骤,AI助手可以从提供通用信息转变为精准回答特定产品问题。实操完成后,还可以释放实例以节省费用。
|
28天前
|
机器学习/深度学习 人工智能 Android开发
移动应用开发与操作系统的协同进化:探索现代技术融合之道###
随着移动互联网的迅猛发展,移动应用已成为人们日常生活中不可或缺的一部分。本文深入探讨了移动应用开发的最新趋势、关键技术以及移动操作系统的发展如何相互促进,共同推动移动互联网的创新与变革。通过分析当前市场动态和技术挑战,本文旨在为开发者提供有价值的见解和指导,帮助他们在竞争激烈的市场中脱颖而出。
|
1月前
|
人工智能 开发框架 搜索推荐
今日 AI 开源|共 10 项| 复合 AI 模型,融合多个开源 AI 模型组合解决复杂推理问题
今日 AI 简报涵盖多项技术革新,包括多模态检索增强生成框架、高保真虚拟试穿、视频生成、生成式软件开发、上下文感知记忆管理等,展示了 AI 在多个领域的广泛应用和显著进步。
177 10
今日 AI 开源|共 10 项| 复合 AI 模型,融合多个开源 AI 模型组合解决复杂推理问题
|
18天前
|
机器学习/深度学习 人工智能 缓存
【AI系统】算子融合
算子融合是优化神经网络模型执行效率的关键技术之一,通过合并计算图中的算子,减少中间结果的实例化和不必要的输入扫描,提升模型的计算并行度和访存效率,有效解决内存墙和并行墙问题。TVM等框架通过支配树分析等高级算法实现高效的算子融合,显著提高模型的执行速度和资源利用率。
53 2
|
26天前
|
人工智能 供应链 新能源
推动AI与基础科学融合,第二届世界科学智能大赛圆满收官
推动AI与基础科学融合,第二届世界科学智能大赛圆满收官
33 5
|
24天前
|
机器学习/深度学习 设计模式 人工智能
探索无界:我的技术之旅与AI的融合####
在技术的浩瀚星海中,我以代码为舟,算法为帆,踏上了一场探索未知的旅程。本文既是对个人技术成长路径的回顾,也是对未来科技趋势——人工智能深度融合的展望。通过分享我在软件开发、机器学习及深度学习领域的实践经历,旨在激发同行对于技术创新的热情,并探讨AI如何重塑我们的世界。 ####
|
1月前
|
机器学习/深度学习 数据采集 人工智能
自动化测试的未来:AI与机器学习的融合之路
【10月更文挑战第41天】随着技术的快速发展,软件测试领域正经历一场由人工智能和机器学习驱动的革命。本文将探讨这一趋势如何改变测试流程、提高测试效率以及未来可能带来的挑战和机遇。我们将通过具体案例分析,揭示AI和ML在自动化测试中的应用现状及其潜力。
41 0
下一篇
DataWorks