龙蜥副理事长张东:加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统

简介: 操作系统如何满足 AI 应用场景需求?未来发展趋势如何?

AI 原生时代,操作系统厂商要全面优先拥抱 AI,深度融合 AI 能力,发挥关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造最 AI 的服务器操作系统,实现 AI 能力的快速价值转化。


AI 原生趋势下,底层硬件需要提供更复杂的计算资源,包括多元化的通用处理器与 AI 加速芯片、更高效的内存、网络、存储 IO 等等,硬件的变化要求操作系统具备更加有效管理和分配能力,确保 AI 应用的高效运行。


操作系统如何满足 AI 应用场景需求?未来发展趋势如何?2024 龙蜥操作系统大会上,龙蜥社区副理事长张东分享了题为《智算引领 系统创新》的主题演讲,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。以下为演讲全文:

(图/龙蜥社区副理事长张东)

AI 原生化加速,操作系统面临全新挑战

AI 可谓是现在最大的产业变革,带来的影响比以往任何技术都更为深远。甚至就像计算机诞生一样,对于整个人类的发展产生很大的影响。AI 的影响力不仅体现在 IT 领域,它还从根本上改变了很多行业创新和发展模式,成为推动生产力向前发展非常重要的一点,现在国家提出要发展新质生产力,AI 就是新质生产力最典型代表。



目前,AI 已经应用于各个领域,比如,通过 AI 大数据的加持,传统科学研究方法大大加速,让攻克难题成为可能;通过自动化生产线和智能机器人,AI 提高了制造效率和质量控制……



AI 应用的快速发展,对底层硬件需求激增,加速卡、存储的不断增长造成单机功率、密度越来越大,并且数据中心规模不断扩张,而硬件资源扩展对资源调度能力提出考验,操作系统也要随资源变化进行调整。


通过堆砌资源的方式满足 AI 需要的道路很难持续,这个过程中操作系统面临几个挑战:一是对多元算力的支持,操作系统需要协调 CPU、GPU 以及其他专用芯片,如何把算力高效组织起来;二是 AI 本身的编程环境非常复杂,软烟囱林立,用户面临环境选择难题;三是效率、性能的优化和可靠性、稳定性等方面,对操作系统提出更高要求,在出现故障的时候能够快速定位,能够快速恢复;最后,确保 AI 原生的安全,防止数据隐私泄露。

应对AI原生,以应用为导向,以系统为核心创新架构设计

面对 AI 原生化对基础设施带来的变革,浪潮信息提出“以应用为导向,以系统设计为中心,建立多元异构算力融合、软硬协同优化”的技术发展路线,其中,操作系统是软硬协同设计与优化的核心。


 

张东表示:“我们提出以应用为导向,是面向最终的应用场景,以系统为中心,系统则是指包括了服务器整机+操作系统+基础应用环境在内的整体。应对 AI 带来的改变,需要软硬件整体创新来解决。”



围绕着 AI 大模型的训练,浪潮信息从硬件上引入了多项的技术,构建面向大规模计算的融合架构 3.0 系统,通过高速互联总线,对计算、存储进行了解耦,实现内存、存储、异构加速及通用计算等资源池化,支持硬件资源快速部署,完善各类芯片之间的内外部互联,并引入 400G 高速网络及海量存储。

在系统软件层面,对于操作系统进行多项改进。一方面,在 AI 原生背景下,操作系统需要持续演进去满足对异构算力环境的支持,对数据多态、跨模态巨量数据的管理,以及对各种新型融合网络架构支持。再者,大模型的开发涉及到数据准备、模型调整、基础训练、微调训练、模型评估、部署验证、服务发布等复杂的流程,在模型开发过程中,也需要操作系统给予支撑。


同时,AI 的发展也会对操作系统带来的变化,在未来的环境里,算力的维护、管理更加复杂,很多工作靠传统的人工很难实现,AI 可以提供更多的辅助,让数据中心的运维管理,从原来自动化走向智能化,真正实现 AIOps。此外,操作系统的开发也可以利用 AI 进行辅助编程,测试用例的自动生成,帮开发人员自动找到系统 bug。

对此,浪潮信息升级服务器操作系统 KOS,实现多元算力高效调度,通过自动化工具快速配置 AI 开发环境,并在调度、内存管理、网络、IO 方面进行了大量优化,具备了智能运维、系统故障智能定位、自动化部署管理能力。


基于开源开放的理念,浪潮信息积极参与社区工作,围绕技术创新、标准、规范以及生态合作和应用推广进行大量工作。同时,浪潮信息也在推动国内开放计算的体系建设,龙蜥社区及其他开源软件是整个开放计算重要组成部分。

AI 原生 First,打造最 AI 的服务器操作系统

“云+AI”开启算力新时代,龙蜥则让更多 AI 大模型新应用长在创新操作系统上。据了解,龙蜥社区是业界最早展开操作系统 AI 探索的,现已兼容国内外主流 GPU,并针对广泛使用的 AI 框架提供 OpenVino 在内的原生支持。


本次大会,龙蜥社区正式发布了“CentOS 替代计划”“Anolis OS 23生态衍生计划”“AI 应用推广计划”三大计划,并首次公布了“AI 原生操作系统”发展路线,提出 AI 容器镜像、智能运维 AIOps、OS Copilot 文档建设等三大探索方向,加速 AI 与操作系统的融合发展。


作为龙蜥社区副理事长单位,浪潮信息自 2022 年加入社区以来,积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设,获得最佳合作伙伴奖。


“现在操作系统对 AI 的适应实际上还远远不够,操作系统如何进一步真正变成 AI 原生,更好支撑 AI 的训练和推理,还需要更大级别的创新,希望产业界能够形成合力,共同打造最 AI 的服务器操作系统”,张东谈到。


在演讲最后,张东对服务器操作系统及社区发展,提出三大建议:

一是 AI 原生 First,社区要全面优先拥抱 AI,深度融合 AI 能力,发挥操作系统关键生态位作用,做好上游芯片与下游 AI 应用开发商之间的纽带,打造AI场景下原生兼容、稳定的基础软件,实现 AI 能力的快速价值转化;

二是坚持应用导向,强调需求牵引,将社区技术创新与应用场景紧密结合,创新基础软件与硬件、应用之间的协同模式,打造面向领域垂直场景的最优解决方案;

三是强化开放中立,社区撕掉单一厂商标签,强调共治共建共享,建立开放标准,积极与国际领先的社区接轨,保持同步发展,形成繁荣的生态系统。


视频回放、课件获取:

「2024龙蜥大会主论坛」直播回放及技术 PPT上线啦,欢迎点击下方链接观看~

回放链接:https://openanolis.cn/video#1181668776082126612

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

—— 完 ——

相关文章
|
12天前
|
人工智能 运维 关系型数据库
云栖大会|数据库与AI全面融合,迈入数据智能新纪元
2024年云栖大会「数据库与AI融合」专场,来自NVIDIA、宇视科技、合思信息、杭州光云科技、MiniMax等企业的代表与阿里云瑶池数据库团队,共同分享了Data+AI全面融合的最新技术进展。阿里云发布了DMS的跨云统一开放元数据OneMeta和智能开发OneOps,推出《云数据库运维》技术图书,并介绍了PolarDB、AnalyticDB、Lindorm和Tair等产品的最新能力,展示了AI在数据库领域的广泛应用和创新。
|
12天前
|
存储 人工智能 自然语言处理
OS Copilot"作为一款操作系统辅助软件应运而生,旨在提升用户使用电脑的效率
随着AI技术的发展,"OS Copilot"作为一款操作系统辅助软件应运而生,旨在提升用户使用电脑的效率。它具备智能命令建议、代码片段生成、文件管理助手及任务自动化等功能,适合日常办公与专业开发。安装简便,上手容易,能显著提高工作效率。
24 3
|
11天前
|
人工智能 运维 数据挖掘
跨界融合:AI与5G技术如何共同推动数字化转型
【10月更文挑战第29天】本文探讨了人工智能(AI)与第五代移动通信技术(5G)的结合如何推动数字化转型。通过高速、低延迟的5G网络和AI的数据分析能力,两者相辅相成,实现了智能化网络运维、增强网络功能和多行业的实际应用。文中提供了网络流量预测和故障预测的示例代码,展示了技术的实际应用潜力。
29 1
|
19天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
72 10
|
14天前
|
机器学习/深度学习 人工智能 物联网
5G与AI融合:智能网络的新纪元
【10月更文挑战第25天】
37 3
|
17天前
|
机器学习/深度学习 人工智能 算法
AI与未来教育:一场革命性融合
在这个信息爆炸的时代,人工智能(AI)正逐步渗透到我们生活的每一个角落,教育领域也不例外。本文旨在探讨AI技术如何革新传统教育模式,以及这一变革可能带来的深远影响。通过分析AI在个性化学习、智能辅导系统、教育资源优化分配等方面的应用案例,揭示其对未来教育生态的重塑潜力。同时,文章也将讨论伴随技术进步而来的挑战,如数据隐私保护、教师角色转变等问题,并提出相应的解决思路和建议,为构建更加公平、高效、人性化的教育体系提供参考。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第25天】在本文中,我们将深入探讨软件测试领域正在经历的革命性变化。随着人工智能(AI)和自动化技术的不断进步,传统的测试方法正逐步被更高效、更智能的解决方案所取代。文章将展示如何通过AI增强自动化测试框架,实现更高效的缺陷检测和问题解决。我们将从基础出发,逐步揭示AI在测试用例生成、测试执行和结果分析中的应用,以及这些技术如何帮助团队提高生产力并缩短产品上市时间。
|
25天前
|
机器学习/深度学习 人工智能 算法
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第15天】在数字化时代的浪潮中,软件测试作为保障软件质量的重要手段,正经历着前所未有的变革。随着人工智能(AI)技术的快速发展和自动化测试工具的不断完善,传统的测试方法正在被重新塑造。本文将深入探讨AI如何赋能软件测试,提升测试效率和准确性,以及自动化测试的未来趋势。我们将通过实际案例,揭示AI与自动化测试相结合的强大潜力,为读者描绘一幅软件测试领域的未来蓝图。
|
28天前
|
人工智能 算法 数据挖掘
AI心语:智能代码与人为艺术的融合
在这个数字时代,人工智能似乎无所不能。它下棋能赢过世界冠军,写文章可骗过编辑,甚至画画能展览于画廊。但AI真的懂得创作吗?还是它仅仅是高级的模仿者?本文将深入探讨AI在艺术创作中的角色,以及它对人类创造力的影响。
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。