来自 Arm、阿里云、龙芯、谐云科技的 5 位技术大咖畅聊一云多芯

简介: “云+AI”形式下,一云多芯的发展有哪些挑战?

众所周知,芯片的发展不仅仅看其自身的性能、功耗、竞争力,还要看在软件生态、行业应用等各个方面的丰富性和对芯片发展的影响力。在 2023 龙蜥操作系统大会一云多芯分论坛上,圆桌讨论环节邀请了阿里巴巴达摩院总监、资深技术专家李春强,龙芯中科操作系统研发总监王洪虎,Arm China 高级软件经理别再平,谐云科技副总裁徐运元等 5 位重量级大咖,阿里云基础软件部产品总监张鹏程担任主持人,围绕操作系统、AI 等领域,分享芯片当前发展遇到的挑战,探讨在“云+AI”技术潮流下一云多芯的发展新思路。以下为本次圆桌讨论原文:


(图/自左到右-阿里云基础软件部产品总监张鹏程,阿里巴巴达摩院总监、资深技术专家李春强,龙芯中科操作系统研发总监王洪虎,Arm China 高级软件经理别再平,谐云科技副总裁徐运元)


主持人:打造好生态是软件产业发展的关键。众所周知,芯片的发展不仅仅看其自身的性能、功耗、竞争力,还要看在软件生态、行业应用等各个方面的丰富性和对芯片发展的影响力。那请各位嘉宾从芯片厂商的角度,谈一谈芯片目前最关键的问题或者待突破的领域都有哪些;在一云多芯的发展过程中看到了哪些挑战,在这方面各企业的布局和下一步发展计划。


运元:发展至今,芯片在各方面的因素影响下确实遇到了较多的挑战,如在云平台基于云原生技术做一云多芯。云原生早几年一直是比较热门的话题,它的整个生态和技术成熟度比较高。虽然云原生已经拥有成熟的生态和技术,但在芯片或操作系统的适配上,还是有较多的问题,如芯片级别指令集适配问题,操作系统级别更多地在依赖库、OS 内核模块稳定性等方面。


别再平:Arm 非常注重生态系统的建设,我个人认为 Arm 的生态系统是一个共建的过程。在软件投入方面,我们着重与生态伙伴共同合作,与广泛的芯片伙伴和生态伙伴密切协作,解决问题和障碍。此外,Arm 也专注于关键功能的实现和落地。例如,与龙蜥操作系统社区的合作,将其作为关键推动力,确保最终的功能实现、性能优化等特性通过操作系统社区得到有效的落地,让最终用户无需关注不同底层芯片架构的差异。


王洪虎:站在龙芯的角度,我个人觉得首先是生态,我认为单独一个芯片或者一个软件很难支撑整个行业的发展。我觉得要支撑一个行业的发展,需要从三个层面来做:首先是底层的芯片支持,因为龙芯是从最底层指令集开始发展到 IP 核再到芯片、物理设计等。芯片的层次是算力的基础,在基础算力能够符合行业需求的情况下,其次是重点发展上游软件生态。发展软件生态是优先解决源头的支持问题,在这个层面上的集大成者是操作系统,操作系统层面是所有应用产业链和芯片的核心桥梁,因此操作系统做得越到位,整个产业链越顺畅,发展起来的生态就会有更好的基础。在这个基础之上的最后层面是和应用结合的生态。大家从以上三个方面共同出发,基于平台共建、共商、共享的理念,实现共同建设,共同分享,最大化地推动整个操作系统产业发展。


李春强:RISC-V 处理器架构对于数据中心、桌面系统都是新起之秀。RISC-V 本身是一个开源开放的指令架构,当前已经站到了起跑线上,相信今后的发展会进入快车道,会有更多面向 RISC-V 的高性能芯片问世。RISC-V 作为一个开源开放的指令集,本身是为生态而生,大家都可以参与进来做操作系统底层、中层、上层的应用生态贡献。为更好的支持软硬件,我们和国内的龙蜥社区、统信软件、openkylin 社区以及国外 Ubuntu 等有紧密的合作。当前,RISC-V 做软件生态的迭代过程中,更大的挑战是停留在开源的软件上面,如 OS、基础组件、闭源的商业软件的适配比较薄弱,在这里也希望更多云原生应用、商业应用 APP 能在 RISC-V 适配,促进 RISC-V 在指令集、芯片以及各种软件的生态中更快速发展。


主持人:各位嘉宾分别阐述了对于软件生态目前的看法和展望,在分享期间也一直提到操作系统,确实看到操作系统在这里帮助大家构建生态时能发挥纽带作用。那么想听听大家在和龙蜥社区的合作上,有没有一些好的经验、案例分享,也欢迎大家提出建议和对未来的展望,以便后续更好的推动龙蜥社区和各个芯片厂商以及一云多芯的合作。


李春强:首先感谢龙蜥社区、社区开发者及维护人员对 RISC-V 和玄铁处理器的支持做了很多工作。我们在和龙蜥社区合作的过程中,最大的感受是龙蜥是非常专业,对技术很执着的社区,其中在与社区 SIG 团队合作时,包括适配、整体软硬件性能优化过程中,把需要做的事梳理得很清楚,这大大地提高了项目推进进度。另外,龙蜥社区也很活跃,如定期召开项目会议和下游各企业的交流,从软件、应用侧给了我们很多输入。那在这些非常好的方面上,RISC-V 在商业应用软件上面薄弱一些,希望龙蜥社区能够在这方面给予更多的帮助,能够有更多的商业软件在 RISC-V 上面跑起来。当然除了操作系统之外,我们也欢迎上层应用的合作伙伴加入共建。


王洪虎:我也谈一下我的个人看法。首先龙蜥社区平台为整个产业链的伙伴搭建了一个非常好的平台,大家在开源社区机制底下共建整个生态,而且确实实现了 1+1>2 的效果龙蜥社区的专业我非常认同,也非常明确能感受到社区的用心工作,这对于技术人员来讲非常重要。在合作过程中,OSV 厂商、开发者以及所有参与伙伴在整个开发过程中都体现出非常优良的开源合作作风。龙蜥是 LoongArch 架构支持的第一个社区版本,期间遇到的困难可想而知,因此真的和社区有种患难与共的感觉,所以第一点在这里特别感谢社区以及社区合作伙伴对 LoongArch 架构的支持付出的努力。第二点给社区带来了什么,这里共享三个数据:首先龙芯给龙蜥社区贡献了代码量统计超过 100 万;其次给社区提供的底层算力的支持超过 200 个 CPU 核;最后提交的 PR 累计超过 500 个。第三点也是对社区的一个建议,我们都知道,做操作系统社区的目的是促进产业发展,而产业要想发展一定要和应用结合。目前社区关注更多的是操作系统层面,所以从开始做架构支持,到操作系统层面支持,还要进一步往产业行业方向发展。那在龙蜥操作系统平台,有操作系统、行业生态的仓库、丰富的第三方仓库支持,这对于开发者、厂商、整个产业链都是共赢的局面。


别再平:我想进一步分享一下我的感受。在与龙蜥社区和开发者们共事的过程中,我真切感受到社区充满了活力。各种技术 SIG 组和 MeetUp 等活动让业界的生态伙伴、开发者和用户都能感受到一种积极向上的氛围,这样的氛围非常难得。我相信我们的合作将会取得更多的成果。关于建议,前面两位老师也提到了我们对于产业最终落地的支持,特别是在具体的落地场景中,可能需要加强各方之间的合作。涉及到具体的芯片和系统实现时,我们需要确保不同芯片在最终操作系统版本上能够获得稳定的表现和优异的性能。这不仅仅是一个 Arm SIG 组所能完全覆盖的,需要一个专门的 SIG 来聚焦类似于端到端实践的方向,这个方向值得我们考虑并推广。


徐运元:作为龙蜥的下游云厂商,我谈一下用户角度在生态上的建议。现在,所有的国产操作系统或者国外开源的操作系统,很核心的战场还是在本身的数据中心的装机量。预估到 2025 年,整个数据中心的装机 90% 以上都会装云(云原生的云),所以后续争夺数据中心这块高地,需要和云原生厂商或者通用云厂商合作生态共建。对于用户来说,使用开源的操作系统、商业化的操作系统无非是核心的两个诉求:第一个成本有多高,第二个稳定性有多好,稳定性最终折合起来还是整体的成本。那站在我的角度,希望和操作系统做兼容性认证或者合作,和更底层的 CPU 架构合作,做出一些差异化的东西,希望上游社区或厂商在生态层面主动发起有类似差异化合作方向的探讨和研究。反推过来,数据中心有很多云原生,操作系统能不能更好的把云原生操作系统支撑好,在我看来是一个比较有吸引力或者比较关键的话题。


主持人:很感谢大家对龙蜥社区的肯定,同时也感谢大家给社区提的非常中肯的建议,相信也对后面的社区工作有很多指引。当下,不管是云厂商还是芯片厂商,整个产业界都在关心云原生、AI 的话题,那么在云原生以及“云+AI”的形式下,让大家看到一些特别的闪光点,将来和社区有什么样更好的合作方式,可以把这样的发展趋势更好的延展。


徐运元:芯片操作系统对云原生方向的支撑或者未来的大趋势,第一软硬件结合,这个趋势不仅是看云原生本身的  CPU 架构对云有无助力,也看龙蜥操作系统基于某一些架构有没有特性能力。回到上层的云原生操作系统(数据库操作系统,云操作系统)能不能基于本身的操作系统以及往下的硬件层面,做硬件加速的功能特性或性能提升。第二在云原生的行业里面,一云多芯或异构算力的支撑是特别重要的,现在更多地去做在数据中心里面怎么无缝的支撑 X86 架构、Arm 架构、龙芯架构以及 RISC-V 架构。第三是多异构架构、异构操作系统并存成为一大趋势。在这种情况之下,怎么确保在整个数据中心层面,基于云的云智能化运维或者可视化运维也是一个非常大的趋势。第四安全层面。由于各种不同的架构,不同的操作系统的引入,反而会变成在云原生安全层面有新的想法或理念。第五生态共建层面。云原生赛道是以开源为主对接上层应用,因此更需要主动往下对接。主动往下对接更多是怎么和龙蜥操作系统等 OS 对接,怎么开放一些向下的兼容、标准化的接口,让本身的操作系统厂商或者其他厂商更好地把自己的能力,以一个比较标准或者开放的形式贡献到云原生的大社区或大生态。


别再平:关于未来,我们将继续关注客户与生态伙伴的需求, 并针对这些需求和痛点,提供更好的计算平台。近年来,随着相关半导体技术的发展,涌现出一系列新的芯片技术,以及内存池和加速设备等,这些新兴技术的引入,促使上层软件的编程范式和应用也会发生变化。

从 Arm 角度来看,我们积极拥抱变化,支持最新的技术。与龙蜥社区的具体合作主要有两个方面:首先是功能方面,例如 CCA、MPAM 等新特性的支持,而要确保最终用户能够充分利用到这些功能,很大程度上来自操作系统的支持,这方面我们会与龙蜥社区保持更密切、直接的合作。其次是性能方面。通过优化底层系统软件的性能,实现相应的落地,我们可以解决整个软件栈中大比例的问题,因为上层的各种应用和框架可以无缝调用底层的加速库来提升性能。这方面将与龙蜥社区在性能分析和性能优化上继续合作。


王洪虎:为了实现一个共同目标,把整个生态繁荣起来,我觉得应该有三个方面可以做的事情:第一个方面从芯片角度看,需要瞄准社区的应用,比如云方向。从芯片角度和操作系统层面如何把底层支持做好,比如内核层面各种功能是否完备、基础的稳定性是否能得到保证以及工具链基础库是否能支撑操作系统应用于云计算等这类行业,这里除了功能适配,还涉及到性能。云原生要想真正发挥底层创新作用,需要和芯片紧密结合,比如虚拟化、容器等,实际上有很大的创新空间。第二个方面指的是操作系统层面和行业应用。为了支撑好云计算产业的发展,需要在操作层面和应用结合面做很多的基础生态建设工作,比如需要提供基础设施,操作系统层面需要提供基础的虚拟化、云化、API的环境支撑。因此,这里需要操作系统厂商、芯片厂商、应用厂商一起在结合面做好基础准备工作。第三个方面事物要想发展好,尤其是现在正在做的国内大循环,一定需要整个产业链一起协同工作。个人建议是希望龙蜥社区成立一种机制,利用这套机制平台把整个产业链,从芯片到超优厂商到整个应用开发者,第三方的常用的基础仓库,基于龙蜥社区平台,大家共同建设,共同受益,这样社区的未来一定是可持续的发展。


李春强:对于云原生我的了解不是很多,作为一个“外行”,我个人觉得一个安全,另外一个是算力的需求。RISC-V 本身是一个模块化,天生就是给异构算力做的指定架构,可以开源开放,大家都可以去定制扩展它的能力,根据应用场景、自己的需求去扩展一些特色的指令集。但这个过程中,它需要有很多的应用在上面进行紧密的调优,或者说各种软硬件结合起来做优化的过程。我们也希望很多应用需要软硬件结合起来做优化,希望今后能够有更多的应用到龙蜥社区做各种各样的优化、扩展、定制。龙蜥社区已成立 RISC-V 的 SIG,也希望大家能够参与,做各种各样的贡献。针对刚才说的安全,我非常赞同安全左移,如果脱离了芯片的安全,脱离处理器的安全,那做安全非常难,因为很多的根密钥没有。在信息安全这个过程中,从 RISC-V 指令集可以定义加解密或者从整个启动过程中,怎么样从处理器维度上做更多的可信根的保障。这些可以和软硬件从云应用维度上看,或者从服务器硬件的维度上看,从芯片里面要做哪些安全,软硬件结合或者从应用牵引做各种各样的调优、定制的工作。


主持人:本次圆桌讨论就到这里,感谢四位老师的真知灼见。我们也收到了很多有意义的建议,希望后面在龙蜥社区携手同行,谢谢大家。


精彩视频回放、课件获取:

2023 龙蜥操作系统大会直播回放及技术 PPT上线啦,欢迎点击观看~

回放链接:https://openanolis.cn/openanolisconference

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

相关文章
|
15小时前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
阿里云、平头哥与Arm联合举办的飞天技术沙龙在上海举行,聚焦Arm Neoverse核心优势和倚天710计算实例在大数据、视频领域的应用。活动中,专家解读了倚天710的性能提升和成本效益,强调了CIPU云原生基础设施处理器的角色,以及如何通过软件优化实现资源池化和稳定性平衡。实例展示在视频编码和大数据处理上的性能提升分别达到80%和70%的性价比优化。沙龙吸引众多企业代表参与,促进技术交流与实践解决方案的探讨。
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
|
1天前
|
Cloud Native 安全 物联网
【阿里云云原生专栏】云边端一体化:阿里云如何利用云原生技术赋能物联网
【5月更文挑战第22天】阿里云借助云原生技术赋能物联网,实现云边端一体化,提升系统弹性与敏捷性。通过容器化部署,保证高可用性与可靠性。在智能交通等领域,阿里云提供高效解决方案,实现实时数据分析与决策。代码示例展示如何使用阿里云服务处理物联网数据。同时,阿里云重视数据安全,采用加密和访问控制保障数据隐私。丰富的工具和服务支持开发者构建物联网应用,推动技术广泛应用与发展。
130 1
|
2天前
|
弹性计算 Kubernetes Cloud Native
【阿里云弹性计算】阿里云ECS与容器技术融合:打造敏捷的云原生基础设施
【5月更文挑战第21天】阿里云ECS结合容器技术(如Docker和Kubernetes),助力企业构建敏捷云原生基础设施。ECS提供高性能服务器,支持容器快速部署和自动化管理,实现应用的高可用性和可维护性。通过二者协同,企业能打造高效、可扩展的应用,加速数字化转型。示例代码展示了在ECS上使用Docker和Kubernetes部署云原生应用的过程。
35 3
|
8天前
|
NoSQL MongoDB 数据库
国内唯一 阿里云荣膺MongoDB“2024年度DBaaS认证合作伙伴奖”
阿里云连续第五年斩获MongoDB合作伙伴奖项,也是唯一获此殊荣的中国云厂商。一起学习MongoDB副本集的选举机制以及可能会出现的特殊情况。
国内唯一 阿里云荣膺MongoDB“2024年度DBaaS认证合作伙伴奖”
|
8天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
346 2
|
6天前
|
存储 安全 数据库
阿里云服务器计算型、通用型、内存型主要实例规格特点、适用场景及最新价格参考
在阿里云服务器的实例规格中,有共享型也有企业型,一般用户选择较多的企业级实例规格有计算型、通用型、内存型,每一种实例规格又有多个实例规格族可选,不同的云服务器实例规格在架构、计算、存储、网络、安全等方面有着不同,因此,其适用场景也有所不同。本文来详细介绍一下阿里云服务器计算型、通用型、内存型主要实例计算、存储等性能及其适用场景,以供参考。
阿里云服务器计算型、通用型、内存型主要实例规格特点、适用场景及最新价格参考
|
8天前
|
存储 弹性计算 固态存储
阿里云服务器租用价格参考,云服务器收费标准与实时活动价格整理
阿里云服务器租用价格参考,本文更新了阿里云服务器最新的租赁费用,包括云服务器实时的活动价格与云服务器收费标准。经济型e实例云服务器4核16G10M带宽配置30.00元/1个月、90.00元/3个月,独享型通用算力型u1实例2核4G服务器仅需199元1年,轻量云服务器2核2G新用户专享价格61元/1年,计算型c7a实例2核4G配置特惠价625.68元/1年。更多阿里云服务器热门配置活动价格及云服务器租赁费用及活动价格见下文。
阿里云服务器租用价格参考,云服务器收费标准与实时活动价格整理
|
8天前
|
存储 编解码 安全
阿里云服务器计算型、通用型、内存型主要实例性能及选择参考
在阿里云的活动中,属于计算型实例规格的云服务器主要有计算型c7、计算型c7a、计算型c8a、计算型c8y、计算型c8i这几个实例规格,属于通用型实例规格的云服务器有通用型g7、通用型g7a、通用型g8a、通用型g8y、通用型g8i,属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y、内存型r8i等实例。不同实例规格的云服务器在架构、计算、存储、网络、安全等方面有着不同,因此,其适用场景也有所不同。本文来详细介绍一下阿里云服务器计算型、通用型、内存型主要实例计算、存储等性能及其适用场景,以供参考。
阿里云服务器计算型、通用型、内存型主要实例性能及选择参考
|
8天前
|
负载均衡 固态存储 Linux
阿里云轻量应用服务器、云服务器、gpu云服务器最新收费标准参考
轻量应用服务器、云服务器、gpu云服务器是阿里云服务器产品中,比较热门的云服务器产品类型,不同类型的云服务器产品收费模式与收费标准是不一样的,本文为大家展示这几个云服务器产品的最新收费标准情况,以供参考。
阿里云轻量应用服务器、云服务器、gpu云服务器最新收费标准参考
|
8天前
|
弹性计算 负载均衡 容灾
应用阿里云弹性计算:打造高可用性云服务器ECS架构
阿里云弹性计算助力构建高可用云服务器ECS架构,通过实例分布、负载均衡、弹性IP、数据备份及多可用区部署,确保业务连续稳定。自动容错和迁移功能进一步增强容灾能力,提供全方位高可用保障。
181 0

热门文章

最新文章