加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛

简介: 本次方案的主题是加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统,从产业洞察、创新实践、发展建议三个方面,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。1. 产业洞察2. 创新实践3. 发展建议

加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛


内容介绍

1. 产业洞察

2. 创新实践

3. 发展建议

 

01. 产业洞察

image.png

AI 是现在最大的一个产业的变革,对于整个产业的影响会远远超过之前的一些技术,甚至就像计算机诞生一样,对于整个人类的发展产生了很大的一个影响。 AI 不仅仅在计算机领域,甚至对于经济的各个方面都会产生很大的影响,最根本的是改变了现在很多行业创新和发展的模式。计算力就是生产力,人工智能是推动生产力发展非常重要的一点,现在国家提出要推动新质生产力, AI 就是最重要的一个新质生产力。

image.png

在各个方面,如今有很多 AI 的应用,有一些可能很新奇好玩,但是从科研角度来讲,它改变了我们科研的范式,进行科学研究的传统方法,有了 AI 的大数据加持之后,可能会产生一些之前很难产生的突破。在各种生活生产的场景里面,“人”是非常重要的一个因素,人的培养和培训在整个生产力发展里面是最慢的,围绕于此产生了很多经济学上的一些研究。服务业这一类依赖于人的行业很难实现一个非常大规模化的扩张,不像工业生产的扩张会很快,就像农业生产受限于土地,服务业就受限于人。之前是劳动者红利,后来中国进入了工程师红利,但是培养一个合格的工程师,需要花费 20 多年的时间才能把一个人培养成一个非常合格的在行业领域顶尖的人才,但是 AI 的出现可能会改变很多,培养一个 AI 的劳动者,现在可能前期的训练要投入大量资本,但复制一个可能就需要一秒钟或者一分钟。

image.png

人工智能的原生化会推动各个行业的发展,同时也给整个 IT 产业提出了非常高的一个要求。浪潮信息这些年一直在致力于 AI 算力基础设施的推动,是全球最大的 AI 服务器供货商。我们在推动算力基础设施发展的过程中发现 AI 现在在很多地方的发展这几年是比较快的,快到我们的计算机底层的一些支撑是在被算法应用拉扯着往前跑,以前可能用一千块卡来训练,但现在很多的集群要到一万块卡,甚至下一步还可能出现几万块甚至上十万块卡,因为算力不够逼着大家去规模化扩展。但是规模化的扩展在某种意义上是效率最不高的一种方式,横着不停的往里堆资源,堆到一定的时候,就会出现很大的问题,所以又逼着网络发展。

以前 100G 的网络不好进行推广,因为客户不需要这么多,在大规模训练出来以后,很多用户对于网络的需求变高了, 100G 的网络反而不够了。相互之间的交互变得更加的复杂,数据存储也是。原来的存储只是将规模做得越来越大,但现在对存储的速度的要求也提上来了。在 AI 场景下,硬件故障造成数据 AI 的训练停下来,就需要把数据保存并读回来,这时候存储就产生了一个非常大的瞬时的 IO 的需求。我们依赖着堆资源的模式满足 AI 的需要,短时间可行,但长久还是会出现大问题。

在这个过程中,操作系统面临着非常大的挑战。

第一是多元算力,算力现在变得越来越复杂。以前是 CPU ,现在不仅包括国外的 GPU ,还有国内的 GPU ,还可能会有其他很多专用的芯片,操作系统就是要把这些算力组织起来。

第二是 AI 本身的编程环境是非常复杂的,很多用户在选择环境的时候会面临不知道选择哪个的问题,这个生态很离散。在历史系统软件的发展过程里,很多成熟的东西就像编译器慢慢的就会进入操作系统,未来面向 AI 的这种编程开发环境同样也应该是操作系统的一部分。

第三是效率性能的优化和可靠性、稳定性的要求,这在操作系统一层是非常重要的,因为操作系统是直接管理硬件的,在出现故障的时候,能快速定位、恢复,这是对操作系统最基本的一个要求。性能调优方面有很多的例子,因为用户选错了底下的软件,造成了性能下降了百分之四五十。

最后一个 AI 的原生安全也是需要系统软件来参与的。

image.png

开源开放是过去这些年产业发展的一个非常重要点, AI 的发展同样也需要开放的环节。现在很多的技术都是通过开放的这种模式,不仅软件在开源,硬件也在慢慢的走向开放,开放加速了 AI 技术的创新,也促进了 AI 的原生化发展。底层很多开源的 AI 框架、 AI 算法以及基于 LLaMa 的大模型的发展,实际上都证明开源是我们发展技术非常重要的一点。

 

02. 创新实践

image.png

浪潮信息围绕着面向 AI ,在系统软件整个的体系里面做了很大的一个创新,包括从硬件到系统软件,系统软件是其中非常重要的一个环节。我们提出以应用为导向,面向应用各种各样的场景,做了一个包括服务器整机、操作系统、为用户提供的最基础的环境在内的整体的系统的联合创新。

image.png

围绕着大规模的 AI 训练,在硬件方面引入了很多新的技术,首先对于用户来讲,万卡规模集群的快速搭建包括了算力以及各种各样的芯片之间的内部互联和外部互联,以及 400G 网络的引入和存储的引入。同时也围绕整个的系统软件,在操作系统也做了很多的工作,包括多元算力的支持、容错的加强、安全的加强,也为用户提供对于整个大规模数据中心的管理以及大模型和基本算组库。我们现在做了一个相对通用的算组库,希望能够把不同家芯片里面的算子再做一次抽象。这些很多的技术陆陆续续的都会和我们的操作系统结合起来,有些也会反馈到社区。

image.png

浪潮信息积极参与了社区的工作,在社区里面围绕着社区的技术创新、标准、规范以及生态合作和应用推广做了很多的工作,同时也在推动国内计算的开放阶段的体系,希望龙蜥社区或者开源软件也是其中一部分,所以我们也和上游的各种芯片厂商以及下游的应用厂商积极的展开合作,通过构建开放共赢的生态加速 AI 应用的落地。

 

03. 发展建议

image.png

关于龙蜥社区未来的发展:

第一谁先去拥抱 AI ,谁就能够在未来的竞争里立于不败之地,龙蜥社区现在已经积极在拥抱 AI 了,真正的把 AI 原生作为龙蜥社区的一个优先发展的点。我们各个参与单位也能够把在 AI 方面的一些创新拿到龙蜥社区,把龙蜥社区打造成一个真正对 AI 友好的做训练以及应用开发首选的操作系统。

第二是坚持应用导向,社区里面现在已经有了很多的用户,也希望能有更多的用户加入进来。浪潮信息做服务器的业务,基本上国内大一点的数据中心都是浪潮信息的用户,希望借助这方面的优势,能够让更多的用户参与到龙蜥社区。我们从用户的需求出发,在卖服务器的过程中,和用户一起做创新以及定制化,操作系统也一样要从应用出发,和用户一起在硬件和软件上协同创新推动整个社区的发展。

最后社区要强化开放中立,我们作为一个整机厂商,在过去确确实实体会到了生态建设的重要性,因为整机里面包含了各家的板卡以及要接各家的操作系统和应用,只有保持一个完全的开放才能达到技术的发展,如果把它封闭起来,其实这并不是一个很好的路径。希望社区是一个更开放的环境,能够团结更多的技术力量,共同促进社区的发展,从而促进整个中国操作系统产业的发展。

目录
打赏
0
6
6
1
1007
分享
相关文章
操作系统智能助手OS Copilot新功能
作为一名前端开发人员,我主要负责公司官网和H5页面的开发,包括页面构建、交互逻辑实现及性能优化。近期试用了Copilot,顺利安装并体验了其代理模式、读取文件和管道功能。通过这些功能尝试生成《黑客帝国》风格的代码瀑布流效果,并使用文件详细描述需求,取得了不错进展。然而,在使用管道功能解释C++代码时遇到了一些问题,需进一步探索解决。 以上内容简洁地介绍了我的工作职责以及Copilot的试用体验,包括顺利的部分和遇到的问题。
操作系统智能助手OS Copilot新功能
云产品评测|操作系统智能助手OS Copilot新功能
我是一名测试工程师,主要负责App和Web端的测试,有时会使用阿里云服务器进行服务端问题定位及数据库等云资源的操作。在使用OS Copilot过程中遇到了一些问题: 1. **命令执行失败**:在解决Vim中文乱码时,Copilot建议的命令看似正确,但实际并未创建或修改`.vimrc`文件。 2. **任务文件解析问题**:使用`-f`功能解析任务文件时,Copilot未能正确执行获取容器日志的任务。 3. **管道功能不稳定**:管道功能对文件内容解释有效,但在某些情况下需要更明确的提示词才能正常工作。
操作系统智能助手OS Copilot新功能 评测
作为一名游戏开发工程师,我近期对阿里云Copilot进行了详细评测。Copilot支持多种Linux系统,具备完整的思维链推理能力,能处理复杂任务,大幅减轻运维工作量。它覆盖了大部分常用命令和参数,适合中高级运维工程师。虽然存在一些缺陷,但其在代码解读、错误分析等方面表现出色,极大提升了工作效率。强烈推荐有运维需求的用户使用Copilot,未来运维离不开它。 附上Copilot文档链接:[点击查看](https://help.aliyun.com/zh/alinux/user-guide/instructions-for-os-copilot)
91 26
操作系统智能助手OS Copilot新功能上线,快来体验吧
阿里云智能助手OS Copilot是一款基于大模型的Linux操作系统智能助手,支持自然语言问答、辅助命令执行、系统运维调优等功能。通过自然语言处理技术,OS Copilot能够帮助用户轻松完成复杂的命令操作和系统管理任务,极大提升了操作便捷性和效率。用户可以通过简单的对话获取所需的操作指令,降低了对专业技能的要求。
|
6天前
|
操作系统智能助手OS Copilot新功能测评报告
作为一名运维开发工程师,我主要负责公司服务器和云资源的管理、故障排查、监控和性能优化。日常工作中常用Ansible管理多台服务器,但需记忆大量命令参数,复杂任务还需编写脚本,较为繁琐。 总体来看,OS Copilot在处理简单任务和提供指导方面表现出色,但在复杂任务处理上仍需改进。
68 18
操作系统智能助手OS Copilot新功能测评
本文介绍了使用co命令修改主机名称、安装Node环境及Vue项目的过程,以及遇到的脚本无限循环和任务执行失败等问题。通过co命令可以简化命令执行流程,但过程中遇到了一些问题,如日志读取报错和命令不正确等。最终通过简化任务和限制查询数据量解决了部分问题,并成功安装了Node环境和运行Vue项目。
操作系统智能助手OS Copilot评测
作为一名个人开发者,我曾因搭建个人博客在云资源运维上花费大量时间,遇到不少问题。最近尝试了Copilot,服务端使用CentOS,配置AK/SK后顺利使用。 评测结果显示,Copilot的-t功能可轻松压缩文件夹并处理命名冲突;-f功能能执行复杂命令,但需注意表述准确性;管道功能则能解读任意文件内容,如解释系统配置文件。总体而言,Copilot提供的功能极大简化了日常服务器管理任务,提高了效率。
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
|
5天前
|
云产品评测-操作系统智能助手OS Copilot新功能
作为一名Java开发人员,我日常负责微服务开发与部署,常用Docker容器化部署。最近试用OS Copilot显著提升了工作效率。版本0.9.0的`co --version`命令表现良好,特别是`-t`功能能高效查询过滤日志,如查询容器liangmu-sign最近5天的错误日志。然而,`-f`功能和管道功能在处理复杂任务时表现不佳,未能正确完成日志分析和保存任务。总体而言,`-t`功能实用,但其他功能有待改进。
35 11
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等