来自 Arm、阿里云、龙芯、谐云科技的 5 位技术大咖畅聊一云多芯

简介: “云+AI”形式下,一云多芯的发展有哪些挑战?

众所周知,芯片的发展不仅仅看其自身的性能、功耗、竞争力,还要看在软件生态、行业应用等各个方面的丰富性和对芯片发展的影响力。在 2023 龙蜥操作系统大会一云多芯分论坛上,圆桌讨论环节邀请了阿里巴巴达摩院总监、资深技术专家李春强,龙芯中科操作系统研发总监王洪虎,Arm China 高级软件经理别再平,谐云科技副总裁徐运元等 5 位重量级大咖,阿里云基础软件部产品总监张鹏程担任主持人,围绕操作系统、AI 等领域,分享芯片当前发展遇到的挑战,探讨在“云+AI”技术潮流下一云多芯的发展新思路。以下为本次圆桌讨论原文:


(图/自左到右-阿里云基础软件部产品总监张鹏程,阿里巴巴达摩院总监、资深技术专家李春强,龙芯中科操作系统研发总监王洪虎,Arm China 高级软件经理别再平,谐云科技副总裁徐运元)


主持人:打造好生态是软件产业发展的关键。众所周知,芯片的发展不仅仅看其自身的性能、功耗、竞争力,还要看在软件生态、行业应用等各个方面的丰富性和对芯片发展的影响力。那请各位嘉宾从芯片厂商的角度,谈一谈芯片目前最关键的问题或者待突破的领域都有哪些;在一云多芯的发展过程中看到了哪些挑战,在这方面各企业的布局和下一步发展计划。


运元:发展至今,芯片在各方面的因素影响下确实遇到了较多的挑战,如在云平台基于云原生技术做一云多芯。云原生早几年一直是比较热门的话题,它的整个生态和技术成熟度比较高。虽然云原生已经拥有成熟的生态和技术,但在芯片或操作系统的适配上,还是有较多的问题,如芯片级别指令集适配问题,操作系统级别更多地在依赖库、OS 内核模块稳定性等方面。


别再平:Arm 非常注重生态系统的建设,我个人认为 Arm 的生态系统是一个共建的过程。在软件投入方面,我们着重与生态伙伴共同合作,与广泛的芯片伙伴和生态伙伴密切协作,解决问题和障碍。此外,Arm 也专注于关键功能的实现和落地。例如,与龙蜥操作系统社区的合作,将其作为关键推动力,确保最终的功能实现、性能优化等特性通过操作系统社区得到有效的落地,让最终用户无需关注不同底层芯片架构的差异。


王洪虎:站在龙芯的角度,我个人觉得首先是生态,我认为单独一个芯片或者一个软件很难支撑整个行业的发展。我觉得要支撑一个行业的发展,需要从三个层面来做:首先是底层的芯片支持,因为龙芯是从最底层指令集开始发展到 IP 核再到芯片、物理设计等。芯片的层次是算力的基础,在基础算力能够符合行业需求的情况下,其次是重点发展上游软件生态。发展软件生态是优先解决源头的支持问题,在这个层面上的集大成者是操作系统,操作系统层面是所有应用产业链和芯片的核心桥梁,因此操作系统做得越到位,整个产业链越顺畅,发展起来的生态就会有更好的基础。在这个基础之上的最后层面是和应用结合的生态。大家从以上三个方面共同出发,基于平台共建、共商、共享的理念,实现共同建设,共同分享,最大化地推动整个操作系统产业发展。


李春强:RISC-V 处理器架构对于数据中心、桌面系统都是新起之秀。RISC-V 本身是一个开源开放的指令架构,当前已经站到了起跑线上,相信今后的发展会进入快车道,会有更多面向 RISC-V 的高性能芯片问世。RISC-V 作为一个开源开放的指令集,本身是为生态而生,大家都可以参与进来做操作系统底层、中层、上层的应用生态贡献。为更好的支持软硬件,我们和国内的龙蜥社区、统信软件、openkylin 社区以及国外 Ubuntu 等有紧密的合作。当前,RISC-V 做软件生态的迭代过程中,更大的挑战是停留在开源的软件上面,如 OS、基础组件、闭源的商业软件的适配比较薄弱,在这里也希望更多云原生应用、商业应用 APP 能在 RISC-V 适配,促进 RISC-V 在指令集、芯片以及各种软件的生态中更快速发展。


主持人:各位嘉宾分别阐述了对于软件生态目前的看法和展望,在分享期间也一直提到操作系统,确实看到操作系统在这里帮助大家构建生态时能发挥纽带作用。那么想听听大家在和龙蜥社区的合作上,有没有一些好的经验、案例分享,也欢迎大家提出建议和对未来的展望,以便后续更好的推动龙蜥社区和各个芯片厂商以及一云多芯的合作。


李春强:首先感谢龙蜥社区、社区开发者及维护人员对 RISC-V 和玄铁处理器的支持做了很多工作。我们在和龙蜥社区合作的过程中,最大的感受是龙蜥是非常专业,对技术很执着的社区,其中在与社区 SIG 团队合作时,包括适配、整体软硬件性能优化过程中,把需要做的事梳理得很清楚,这大大地提高了项目推进进度。另外,龙蜥社区也很活跃,如定期召开项目会议和下游各企业的交流,从软件、应用侧给了我们很多输入。那在这些非常好的方面上,RISC-V 在商业应用软件上面薄弱一些,希望龙蜥社区能够在这方面给予更多的帮助,能够有更多的商业软件在 RISC-V 上面跑起来。当然除了操作系统之外,我们也欢迎上层应用的合作伙伴加入共建。


王洪虎:我也谈一下我的个人看法。首先龙蜥社区平台为整个产业链的伙伴搭建了一个非常好的平台,大家在开源社区机制底下共建整个生态,而且确实实现了 1+1>2 的效果龙蜥社区的专业我非常认同,也非常明确能感受到社区的用心工作,这对于技术人员来讲非常重要。在合作过程中,OSV 厂商、开发者以及所有参与伙伴在整个开发过程中都体现出非常优良的开源合作作风。龙蜥是 LoongArch 架构支持的第一个社区版本,期间遇到的困难可想而知,因此真的和社区有种患难与共的感觉,所以第一点在这里特别感谢社区以及社区合作伙伴对 LoongArch 架构的支持付出的努力。第二点给社区带来了什么,这里共享三个数据:首先龙芯给龙蜥社区贡献了代码量统计超过 100 万;其次给社区提供的底层算力的支持超过 200 个 CPU 核;最后提交的 PR 累计超过 500 个。第三点也是对社区的一个建议,我们都知道,做操作系统社区的目的是促进产业发展,而产业要想发展一定要和应用结合。目前社区关注更多的是操作系统层面,所以从开始做架构支持,到操作系统层面支持,还要进一步往产业行业方向发展。那在龙蜥操作系统平台,有操作系统、行业生态的仓库、丰富的第三方仓库支持,这对于开发者、厂商、整个产业链都是共赢的局面。


别再平:我想进一步分享一下我的感受。在与龙蜥社区和开发者们共事的过程中,我真切感受到社区充满了活力。各种技术 SIG 组和 MeetUp 等活动让业界的生态伙伴、开发者和用户都能感受到一种积极向上的氛围,这样的氛围非常难得。我相信我们的合作将会取得更多的成果。关于建议,前面两位老师也提到了我们对于产业最终落地的支持,特别是在具体的落地场景中,可能需要加强各方之间的合作。涉及到具体的芯片和系统实现时,我们需要确保不同芯片在最终操作系统版本上能够获得稳定的表现和优异的性能。这不仅仅是一个 Arm SIG 组所能完全覆盖的,需要一个专门的 SIG 来聚焦类似于端到端实践的方向,这个方向值得我们考虑并推广。


徐运元:作为龙蜥的下游云厂商,我谈一下用户角度在生态上的建议。现在,所有的国产操作系统或者国外开源的操作系统,很核心的战场还是在本身的数据中心的装机量。预估到 2025 年,整个数据中心的装机 90% 以上都会装云(云原生的云),所以后续争夺数据中心这块高地,需要和云原生厂商或者通用云厂商合作生态共建。对于用户来说,使用开源的操作系统、商业化的操作系统无非是核心的两个诉求:第一个成本有多高,第二个稳定性有多好,稳定性最终折合起来还是整体的成本。那站在我的角度,希望和操作系统做兼容性认证或者合作,和更底层的 CPU 架构合作,做出一些差异化的东西,希望上游社区或厂商在生态层面主动发起有类似差异化合作方向的探讨和研究。反推过来,数据中心有很多云原生,操作系统能不能更好的把云原生操作系统支撑好,在我看来是一个比较有吸引力或者比较关键的话题。


主持人:很感谢大家对龙蜥社区的肯定,同时也感谢大家给社区提的非常中肯的建议,相信也对后面的社区工作有很多指引。当下,不管是云厂商还是芯片厂商,整个产业界都在关心云原生、AI 的话题,那么在云原生以及“云+AI”的形式下,让大家看到一些特别的闪光点,将来和社区有什么样更好的合作方式,可以把这样的发展趋势更好的延展。


徐运元:芯片操作系统对云原生方向的支撑或者未来的大趋势,第一软硬件结合,这个趋势不仅是看云原生本身的  CPU 架构对云有无助力,也看龙蜥操作系统基于某一些架构有没有特性能力。回到上层的云原生操作系统(数据库操作系统,云操作系统)能不能基于本身的操作系统以及往下的硬件层面,做硬件加速的功能特性或性能提升。第二在云原生的行业里面,一云多芯或异构算力的支撑是特别重要的,现在更多地去做在数据中心里面怎么无缝的支撑 X86 架构、Arm 架构、龙芯架构以及 RISC-V 架构。第三是多异构架构、异构操作系统并存成为一大趋势。在这种情况之下,怎么确保在整个数据中心层面,基于云的云智能化运维或者可视化运维也是一个非常大的趋势。第四安全层面。由于各种不同的架构,不同的操作系统的引入,反而会变成在云原生安全层面有新的想法或理念。第五生态共建层面。云原生赛道是以开源为主对接上层应用,因此更需要主动往下对接。主动往下对接更多是怎么和龙蜥操作系统等 OS 对接,怎么开放一些向下的兼容、标准化的接口,让本身的操作系统厂商或者其他厂商更好地把自己的能力,以一个比较标准或者开放的形式贡献到云原生的大社区或大生态。


别再平:关于未来,我们将继续关注客户与生态伙伴的需求, 并针对这些需求和痛点,提供更好的计算平台。近年来,随着相关半导体技术的发展,涌现出一系列新的芯片技术,以及内存池和加速设备等,这些新兴技术的引入,促使上层软件的编程范式和应用也会发生变化。

从 Arm 角度来看,我们积极拥抱变化,支持最新的技术。与龙蜥社区的具体合作主要有两个方面:首先是功能方面,例如 CCA、MPAM 等新特性的支持,而要确保最终用户能够充分利用到这些功能,很大程度上来自操作系统的支持,这方面我们会与龙蜥社区保持更密切、直接的合作。其次是性能方面。通过优化底层系统软件的性能,实现相应的落地,我们可以解决整个软件栈中大比例的问题,因为上层的各种应用和框架可以无缝调用底层的加速库来提升性能。这方面将与龙蜥社区在性能分析和性能优化上继续合作。


王洪虎:为了实现一个共同目标,把整个生态繁荣起来,我觉得应该有三个方面可以做的事情:第一个方面从芯片角度看,需要瞄准社区的应用,比如云方向。从芯片角度和操作系统层面如何把底层支持做好,比如内核层面各种功能是否完备、基础的稳定性是否能得到保证以及工具链基础库是否能支撑操作系统应用于云计算等这类行业,这里除了功能适配,还涉及到性能。云原生要想真正发挥底层创新作用,需要和芯片紧密结合,比如虚拟化、容器等,实际上有很大的创新空间。第二个方面指的是操作系统层面和行业应用。为了支撑好云计算产业的发展,需要在操作层面和应用结合面做很多的基础生态建设工作,比如需要提供基础设施,操作系统层面需要提供基础的虚拟化、云化、API的环境支撑。因此,这里需要操作系统厂商、芯片厂商、应用厂商一起在结合面做好基础准备工作。第三个方面事物要想发展好,尤其是现在正在做的国内大循环,一定需要整个产业链一起协同工作。个人建议是希望龙蜥社区成立一种机制,利用这套机制平台把整个产业链,从芯片到超优厂商到整个应用开发者,第三方的常用的基础仓库,基于龙蜥社区平台,大家共同建设,共同受益,这样社区的未来一定是可持续的发展。


李春强:对于云原生我的了解不是很多,作为一个“外行”,我个人觉得一个安全,另外一个是算力的需求。RISC-V 本身是一个模块化,天生就是给异构算力做的指定架构,可以开源开放,大家都可以去定制扩展它的能力,根据应用场景、自己的需求去扩展一些特色的指令集。但这个过程中,它需要有很多的应用在上面进行紧密的调优,或者说各种软硬件结合起来做优化的过程。我们也希望很多应用需要软硬件结合起来做优化,希望今后能够有更多的应用到龙蜥社区做各种各样的优化、扩展、定制。龙蜥社区已成立 RISC-V 的 SIG,也希望大家能够参与,做各种各样的贡献。针对刚才说的安全,我非常赞同安全左移,如果脱离了芯片的安全,脱离处理器的安全,那做安全非常难,因为很多的根密钥没有。在信息安全这个过程中,从 RISC-V 指令集可以定义加解密或者从整个启动过程中,怎么样从处理器维度上做更多的可信根的保障。这些可以和软硬件从云应用维度上看,或者从服务器硬件的维度上看,从芯片里面要做哪些安全,软硬件结合或者从应用牵引做各种各样的调优、定制的工作。


主持人:本次圆桌讨论就到这里,感谢四位老师的真知灼见。我们也收到了很多有意义的建议,希望后面在龙蜥社区携手同行,谢谢大家。


精彩视频回放、课件获取:

2023 龙蜥操作系统大会直播回放及技术 PPT上线啦,欢迎点击观看~

回放链接:https://openanolis.cn/openanolisconference

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

相关文章
|
3月前
ARM64技术 —— 系统调用指令SVC、HVC和SMC的使用规则
ARM64技术 —— 系统调用指令SVC、HVC和SMC的使用规则
|
3月前
ARM64技术 —— MMU处于关闭状态时,内存访问是怎样的?
ARM64技术 —— MMU处于关闭状态时,内存访问是怎样的?
|
3月前
ARM技术 —— 条件执行
ARM技术 —— 条件执行
|
3月前
ARM64技术 —— Device Memory Type
ARM64技术 —— Device Memory Type
|
7月前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
阿里云、平头哥与Arm联合举办的飞天技术沙龙在上海举行,聚焦Arm Neoverse核心优势和倚天710计算实例在大数据、视频领域的应用。活动中,专家解读了倚天710的性能提升和成本效益,强调了CIPU云原生基础设施处理器的角色,以及如何通过软件优化实现资源池化和稳定性平衡。实例展示在视频编码和大数据处理上的性能提升分别达到80%和70%的性价比优化。沙龙吸引众多企业代表参与,促进技术交流与实践解决方案的探讨。
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
|
7月前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
基于「倚天710自研芯片+CIPU云原生基础设施处理器」组合的倚天ECS实例为解决算力挑战提供新思路。
|
26天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
|
2月前
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
2月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
2月前
|
存储 Docker 容器
ARM架构鲲鹏主机BClinux离线安装docker步骤
下载并安装适用于ARM架构的Docker CE二进制文件,解压后移动至/usr/bin目录。创建docker组,配置systemd服务脚本(docker.service、docker.socket、containerd.service),重载systemd配置,启动并启用docker服务。编辑daemon.json配置存储驱动、镜像加速地址等,最后拉取所需镜像。
69 0