阿里云与龙蜥携手打造智算时代最佳服务器操作系统

简介: 本次分享的主题是阿里云与龙蜥携手打造智算时代最佳服务器操作系统,由阿里云技术软件部产品总监张鹏程分享。主要分为三个部分:1.开源社区2.操作系统3.云 + AI

阿里云与龙蜥携手打造智算时代最佳服务器操作系统


内容介绍

1.开源社区

2.操作系统

3.云 + AI

 

今天与大家分享的是从阿里云与龙蜥的角度出发,在共同构建服务器操作系统的道路上所经历的历程,以及进一步发展的方向。

image.png

从这个题目中可以提炼出三个关键词。第一个是“龙蜥”,它代表着开源社区;第二个是“操作系统”,这是我们共同的产物;第三个是“云加 AI ”,这是合作历程或演进过程中的核心话题。因此接下来的内容将围绕这三个关键词来展开。

 

01.开源社区

所以,第一部分将聚焦于“开源”。对于阿里云而言,这个话题伴随着其发展历程不断深化。阿里云自 2009 年创立之初,便置身于开源产业的广阔环境中,经历了一个从使用到贡献,再到拓展的演进过程。最初,即从 2009 年开始,阿里云在创建初期,其技术基础很大程度上来源于开源软件的复用。正是借助了开源软件坚实而丰富的积累,阿里云得以在面向内部,如电商环境及更为复杂的互联网业态中,实现自身的技术创新与突破。在这个过程中,无论是在 Linux 操作系统,还是在大数据环境等领域,都积累了丰富的学习与实践经验。

image.png

到了 2014 年前后,随着阿里在电商体系、互联网系统研发以及云计算领域的不断前行,内部也在持续积累技术基础。在这个过程中逐渐开始回馈开源社区。从那个阶段起在内部着手打破技术孤岛,将技术转变为支撑业务的主要基石。同时也借助开源的方式,将公司内部形成的技术成果,通过开源的推广,逐步转化为行业标准。

到了2018年及以后,从阿里云的角度来看,随着云计算的蓬勃发展和众多业务机会的涌现,特别是在基础软件领域,如操作系统、数据库以及中间件等方面,云环境逐渐成为了开源软件运行的最佳环境。无论是从技术还是业务的角度,都有机会将这些基础软件整合成一个一体化的形态,并发展成为自己的一个业务单元。在这个过程中,基于开源的土壤可以逐步将阿里的诸多能力传递给整个产业。同时通过生态拓展的方式,让更多人能够接纳并应用这些技术,甚至因此成为阿里云的用户。这也解释了为什么阿里云一路走来,始终沿着开源这条路线持续演进。

包括刚才杨红老师介绍的龙蜥社区,其源头正是阿里云将自身在操作系统领域的积累,面向整个产业进行开源的结果。这构成了综合发展路径的一部分。就阿里云目前在开源领域的状态而言,阿里本身在开源生态中始终保持同步发展。进一步观察,可以看到阿里今天的业务布局中,以云计算操作系统为主体。

 

02.操作系统

image.png

其中,服务器操作系统是每一个云计算环境的基础基石,同时它也为用户提供了丰富多样的云计算服务。在这个过程中一方面与国际主流开源社区合作,另一方面也促进了国内开源生态的发展,龙蜥社区便是这一过程中围绕操作系统技术软件环境合作的一个重要载体。同时阿里云在面向开源的方向上,形成了一个“ 1+4 ”的布局。这个“ 1 ”指的是,在生成式 AI 或大模型日益成熟发展的背景下,阿里开源了魔搭社区,旨在面向整个 AI 产业,为开发者提供一个更加丰富和便捷的使用环境。

在基础软件领域,最左侧的首要位置便是操作系统,这一点多次提及。从阿里的贡献到与产业内 24 家理事单位携手合作发展的龙蜥社区,龙蜥社区经过三年多的发展,已在国内汇聚了超过 800 家合作伙伴。通过龙蜥操作系统的广泛推广,目前能够覆盖到 600 多万装机量的使用环境。在此过程中,恰逢 CentOS 迁移替代的机遇,为操作系统的不断发展和开源合作带来了广阔的空间。

 

03.云 + AI

第三个关键词是“云 + AI ”。阿里云发展到今天,在整个云加 AI的发展趋势上,正迎来一个新的发展机遇。

image.png

回顾阿里云的发展历程,可以看到它经历了三次浪潮的演变。最初,那些原本就基于互联网提供服务的互联网公司,最早地拥抱了云计算,这带动了阿里云的第一次浪潮。随着云计算基础设施的不断成熟,各行各业的企业开始意识到,原本在本地进行的信息化建设,或是信息化向数字化的演变过程中,可以借助云计算的诸多能力。因此,越来越多的企业选择拥抱云计算。这第二次浪潮,让我们看到今天各行各业的企业都开始使用云计算的 SaaS 服务。

第三次浪潮则是现在所见证的生成式 AI 大模型的发展。从模型的训练,到后续众多正在孵化的 AI 应用,再到运用推理能力,这些都得益于云的分时复用优势。云环境能够更好地利用多样化的算力,推动这些应用在云上高效运行。这是整个产业发展中不可阻挡的趋势。在这一整个发展趋势中,阿里云在延续其“十四五”技术路线向前演进的过程中,始终坚持基于飞天自研的云计算操作系统进行发展。其中,最为关键的核心组件便是阿里云的服务器操作系统。自飞天诞生之初,这一操作系统便已在阿里云自有的云计算环境中运行。每一台服务器上,都运行着阿里云的服务器操作系统。这不仅是阿里自研能力的重要体现,也是结合开源方式不断向前演进的重要载体。

借助阿里云的服务器操作系统,一方面面向硬件底层的云基础设施,构建了一条“一云多芯”的极具竞争力的云发展路线。无论是国际主流的英特尔、 AMD 等芯片,还是国产化的主流芯片如鲲鹏、海光等,在今天的云环境中都能得到更好的兼容。甚至阿里自身也在 ARM 路线上自研了倚天芯片。这些都是借助服务器操作系统,实现了软硬件的更好协同,从而达到了更优的效果。

面向北侧的诸多领域,云上的数据库、中间件,乃至大数据计算环境等,都依赖于服务器操作系统在北向协同上的卓越表现。这使内部能够针对特定场景进行优化,从而实现更强的性能表现。对于云上的用户而言,这意味着可以获得更高的性能,进而在用户视角下转化为更好的性价比。因此在飞天不断演进的过程中,随着三次浪潮的叠加,服务器操作系统始终发挥着至关重要的基石作用。这也解答了为什么阿里云在长达十多年的发展历程中,一直坚持在操作系统上保持长期投入。这份投入的初心,可以总结为从三个角度来回答:阿里云为何会一直坚持,并将继续在未来延续在操作系统上的持续努力。

image.png

第一部分聚焦于阿里自身业务的发展需求。如今,阿里已成为国内最大的云计算服务商。在面对各行各业用户的多样化需求时肩负着更大的使命感和责任感,确保在超大规模计算集群的运行过程中,始终保持其稳定性、安全性、高性能,并为用户提供更优的成本体验。这一过程中,操作系统发挥着承上启下的关键作用,对于提升用户体验至关重要。

第二部分聚焦于云的发展本身,并且面临着提升技术竞争力和技术创新的重要机遇。结合“一云多芯”技术路线的演进,以及云上从原有通用算力到近年来各类异构智能算力的发展,如何激活这些算力以更好地支持应用场景,成为了关键所在。这非常依赖于软硬一体协同创新的实现。从上下游协同的角度来看,操作系统在这一过程中发挥着承上启下的重要作用。

第三部分聚焦于今天所面临的国内产业发展环境。过去两年中不断遭遇“三停服”事件,国际形势的变化也引发了大家对断供的担忧。正如杨红老师之前提到的,软件供应链的安全问题日益凸显。在这样的背景下,国内产业正面临着如何自立自强、摆脱被“卡脖子”风险的挑战。这并不是危言耸听,在许多领域都亟需实现关键技术的突破,以确保在自有领域下实现自主替代,保障最基本的底层安全。因此这也承载着重要的使命。

我们希望操作系统这一关键环节能够串联起国内硬件与软件生态的发展,实现更好的衔接。它有机会发挥杠杆作用,推动整个产业的可持续发展。在这样的使命驱动下,阿里云一直积极拥抱开源,并在操作系统领域推动最佳实践,从而形成了龙蜥社区这一发展环境。回顾龙蜥社区的演进路线,可以看到它正是 CentOS 替代和自主演进的最佳样本。

image.png

其实从 2009 年到 2019 年,尽管龙蜥社区尚未诞生,但阿里云在早期就已默默地在操作系统领域进行投入。当时投入的一大原因是阿里成立了一个淘宝内核组,从使用 CentOS 开始,逐渐学习并深入其中。然而随着业务的不断发展,阿里发现基于 CentOS 已无法满足其自有业务的需求。例如在电商大促或关键业务场景下,系统稳定性至关重要;同时在超大规模集群中,如何提升系统资源利用率 5% 乃至 10% ,也是亟待解决的问题。

这些努力为阿里的业务运营带来了连续性的保障和显著的成本收益,效果非常可观。在这样的业务驱动下,阿里经历了一个“三个替代”的过程。大约在 2013  2014 年期间,阿里内部的所有数据中心服务器已经完成了这一替代。此后阿里不断提升和积累操作系统的能力,并逐渐将其产品化对外输出。这就是今天在阿里上可以使用的服务器操作系统。

在那之后,即从 2019 年到 2021 年期间看到了国内产业发展中更宏观的视角和更大范围的产业协同机会。因此从那个时间点开始筹建了龙蜥社区。当时与大约 67 家产业内的伙伴共同联合创立了龙蜥社区,这一社区一直发展到今天,已经拥有了 24 家理事单位。

 2021 年到 2022 年,龙蜥社区成立前后,红帽宣布了 CentOS 8的停服计划,并全面转向商业化路径。这一过程中,国内各行各业都面临着 CentOS 停服可能带来的安全性、稳定性等方面的风险影响。因此在 2021  12 月,龙蜥社区正式上线了“三周停服专区”,联合社区内的伙伴力量,推出了龙蜥操作系统,以及围绕龙蜥技术路线形成的更广泛的商业衍生版本选项。

其实,“停服专区”为用户提供了替代 CentOS 的选项。我们也希望为所有行业的客户,在使用 CentOS 并寻找下一个替代品时,提供一个更好的演进路径,使他们能够更平滑地完成替代和升级过程。到了 2023 年,这是龙蜥社区自主演进的一个重要发展历程。在 2023  7 月,一个完全自主选型、代表下一代技术路线和版本跨越式发展的载体—— Anolis OS 23 版本也正式发布了。

因此从龙蜥社区的演进来看,它会结合 Anolis OS 8 等版本,以满足当前生态兼容性的更好演进。同时 Anolis OS 23 则代表了更下一代的技术路线发展,两者叠加,推动龙蜥社区不断向前发展。在这个过程中,阿里云一直与社区伙伴共同建设社区,保持其作为一个中立、共建共享的社区发展环境。我们也希望借助社区和开源生态,推广技术成果。同时也期待与社区伙伴更好地协同,助力整个技术软件生态的发展。伴随着龙蜥社区的演进,阿里云结合龙蜥技术路线,也形成了最佳的产品实践。这个在今天后面的时间也会给大家做更详细的的分享。

image.png

这是阿里云的服务器操作系统,它基于阿里巴巴之前积累的 Linux技术。随着阿里云上用户对于操作系统的使用需求日益增长,以及存在诸多优化和发展的机遇,推出了面向用户的商业发行版。该操作系统的更大优势在于,一方面它基于龙蜥的技术路线不断向前演进,确保拥有一条自主的技术演进路径。同时结合云和 AI 领域的丰富场景需求可以将这些场景需求转化为操作系统层面上的功能完善,从而为云上运行的各种应用负载带来更稳定、安全和高性能的使用体验。

左边是对操作系统形成的一些能力做简单总结。在稳定性方面,无论是单机运行还是大规模集群运行,云上的实际运行数据都显示,其表现至少比 CentOS 提升了一倍,即整个系统的宕机率降低了至少一半,展现了更高的可靠性。同时提供了更丰富的运维和排查工具,以确保快速识别并解决问题,从而保障业务连续性。在安全方面,沿着安全漏洞修复和安全隔离的技术路径,确保云上使用的安全可靠。

在性能上拥有更多的软硬协同优势。例如在倚天芯片的场景下,可以在关键业务场景上实现 20% 的性能提升,甚至在一些特定场景中获得更佳的优化效果。在成本方面,凭借出色的隔离性,能够显著提升单机的使用率。许多互联网行业的客户可能习惯于在既定资源下采用混合部署策略,以获得更高的资源使用率。这些都可以借助技术软件支撑,确保卓越的性能表现。在软硬件支持上,这得益于阿里云“一云多芯”的发展路线,从而能够提供更全面的硬件生态适配与兼容,以及云上更广泛的应用生态覆盖。

所以发展到今天,云上已经有超过三十万阿里云的用户。他们的云上负载每天都运行在阿里巴巴 Cloud Linux 之上。在 2023  4 月跨越了一个里程碑式的发展阶段。那时在阿里云上运行的服务器 CentOS 已经超越了某个重要阈值,并且越来越多的云上用户开始拥抱自有的操作系统,以替代原本对 CentOS 的依赖。包括在技术能力上,以及刚才提到的在开源社区和上游的贡献方面,这其实都代表了整个团队在技术能力上的不断积累。并且能够将技术面向业务,形成一个产业化的输出过程。

image.png

在当今这个新的发展格局下,特别是在云和 AI 的助力之下正处在一个新的历史阶段。面对第三次浪潮所带来的发展机遇确实拥有了更好的发展机会。在更多业务需求的驱动和更广泛用户的使用场景下,有机会推动产业升级,实现向前演进的过程。一方面,对于存量市场希望更好地进行 CentOS 的替代,以形成一个国产生态的演进。但我认为更大的机遇其实在于增量市场。

随着今天面临越来越多新的应用场景,以及整个行业不断向前演进的过程,开始有机会借助云加 AI 等技术潮流,在技术软件领域实现换道超车。同时也期望在这个过程中,通过阿里云在龙蜥社区的持续贡献,以及与龙蜥社区内产业伙伴的不断深入合作,能够带动整个产业共同向前发展。因为操作系统的发展确实离不开生态的支持与滋养。并且也希望在龙蜥社区这一更广泛且开放的环境下,能够将阿里云在操作系统领域的积累不断向前推进,并与产业上下游形成更广泛且深入的协同合作。这样面向未来就能拥有一个云上最佳体验的服务器操作系统,为更广泛的用户提供更加出色的业务支撑效果。

目录
打赏
0
0
0
0
1006
分享
相关文章
阿里云 OS Colilot 使用方法及评测
作为一名后端研发工程师兼公司运维,我经常使用阿里云维护服务器和管理云服务。最近尝试了OS Copilot的-f/-t/管道功能 此外,我还测试了普通模式、自动模式、文件定义任务及命令解释功能。其中自动模式表现出色,而文件定义任务和默认英文解释则存在问题。总体而言,OS Copilot在某些方面显著提高了运维效率,但仍需改进。
阿里云轻量应用服务器出新品通用型实例了,全球26个地域可选
近日,阿里云再度发力,推出了首款全新升级的轻量应用服务器——通用型实例。这款服务器实例不仅标配了200Mbps峰值公网带宽,更在计算、存储、网络等基础资源上进行了全面优化,旨在为中小企业和开发者提供更加轻量、易用、普惠的云计算服务,满足其对于通用计算小算力的迫切需求。目前,这款新品已在全球26个地域正式上线,为全球用户提供了更加便捷、高效的上云选择。
云产品评测|告别传统运维挑战!阿里云OS控制台引领智能管理新时代
阿里云OS控制台是专为运维人员设计的高效管理工具,旨在提升用户体验和简化操作流程。它不仅集成了OS Copilot等智能助手,还提供了系统诊断、订阅管理和AI组件等功能,支持API、SDK、CLI等多种管理方式。通过该平台,用户可以轻松纳管服务器、监控健康状态、执行故障排查,并享受针对阿里云环境优化的运维体验。整体而言,阿里云OS控制台为运维工作带来了极大的便利与效率提升。
体验阿里云的OS Copilot智能助手
作为一名客户端开发工程师,我最近体验了阿里云的OS Copilot智能助手。通过创建ECS实例并安装OS Copilot,我尝试了其-t、-f参数及管道功能。这些功能大大简化了运维任务,如系统健康检查、编写Shell脚本和解释配置文件,极大提升了工作效率。对于运维新手或职场新人,OS Copilot无疑是一个强大的帮手,让人感叹科技进步的力量。
阿里云操作系统智能助手OS Copilot使用评测报告
作为一名运维工程师,我近期体验了阿里云OS Copilot智能助手。在Alibaba Cloud Linux的ECS实例中,按官方文档完成安装配置后,通过输入`co`命令唤醒助手,验证其自然语言理解能力,发现它对中英文支持良好。体验了 `-t` 参数的自动任务处理、`-f` 参数的复杂任务执行及管道功能对命令的详细解读,这些功能显著提升了工作效率。总体而言,OS Copilot表现优异,建议增加自动下载命令功能以进一步提升用户体验。
阿里云 OS Colilot 使用方法及评测
本文介绍了OS Copilot的安装与功能测试。作为一位运维工程师,我在阿里云Ubuntu 24.04机器上成功安装并测试了OS Copilot的-t/-f/管道功能。测试结果显示,除了管道符识别存在一些问题外,OS Copilot在任务指令处理和系统巡检等方面表现出色,能够显著简化操作流程,提升工作效率。建议在未来版本中优化管道符识别,并谨慎引导用户执行不确定的命令。总体而言,OS Copilot是一个非常有用的运维工具,已在我的工作中发挥了积极作用。
27 2
阿里云 OS Copilot 评测报告
作为一名运维工程师,我体验了OS Copilot的-t/-f/管道功能,整体感受是“非常棒,但距离真正的一句话运维还有距离,未来可期”。-t参数简化了系统健康度检查,直接给出结果,提升了效率。-f参数尝试批量执行任务文件中的命令,但遇到了权限问题。管道功能能解释配置文件参数,识别注释行,非常实用。建议增加示例任务库、优化错误处理和增强文档支持。
关于阿里云Os Copilot的使用体验
阿里云OS Copilot是一款强大的命令行辅助工具,适用于CentOS、Ubuntu等系统。它能简化复杂命令的执行,提供交互式任务处理、命令纠错、知识问答等功能。安装简单,支持x86和aarch64架构,通过RAM角色授权即可快速配置。使用场景包括文件操作、脚本生成、日志分析等,尤其适合非专业运维人员。其优势在于通过中文描述执行任务,增强命令行操作的便捷性;不足之处是上下文连贯性和日志分析能力有待提升。建议增加AI指令提示、本地日志分析及增强上下文理解,以进一步优化用户体验。非常推荐尝试,更多详情可参考[官方文档]
阿里云操作系统迁移最佳实践
本次分享的主题是社区操作系统迁移和阿里云操作系统迁移。由龙溪社区王喆分享。 1. 操作系统生命周期 2. 操作系统迁移方案 3. 操作系统迁移流程 4. 操作系统迁移评估 5. 一站式迁移运维平台SysOM 6. SMC操作系统迁移实践
初见阿里云 OS Copilot 评测
### 阿里云 OS Copilot 操作系统智能助手评测报告 **评测人员身份:山东云管家售前架构师** #### 1、功能体验 1. **基本命令**:`co --help` 显示了丰富的命令选项,支持交互模式和文件输入。 2. **健康检查**:使用 `-t` 参数可自动执行系统健康检查,简化操作流程,提升效率。 3. **批量任务**:通过 `-f` 参数读取文件中的复杂任务并自动执行,适合频繁运维需求。 4. **管道功能**:支持直接解析配置文件,快速理解并优化系统参数。 #### 2、总结与反馈 OS Copilot 具备高效性和易用性,特别适用于中高级运维工程师。但仍需改进对自