政企云平台“一云多芯”路线全景图

简介: “一云多芯”的重要性不言而喻,企业在设计和实施“一云多芯”策略时,要遵循怎样的路线?又要通盘考虑哪些问题?本文将通过阿里云在政企云平台“一云多芯”的实践经验,为政企落地一云多芯战略提供更多参考。

“一云多芯”成为政企云平台可被信赖的关键

近年来,“一云多芯”成为云计算领域的一个热词,不仅代表着云平台向着开放化标准化发展,也反应出政企守护“IT安全生命线”的刚性要求。狭义的“一云多芯”是指在一个云平台内可同时采用多种异构CPU等类型的国产芯片,而广义的“一云多芯”要求提供从CPU扩展到GPU、网络设备,以及各类行业生态应用、客户自建应用的全域兼容能力,能够支持云平台从建设、应用迁移、到运维管理的全生命周期的能力要求,助力客户构建安全可信的IT基础设施。

“一云多芯”的重要性不言而喻,然而企业在设计和实施“一云多芯”策略时,要遵循怎样的路线?又要通盘考虑哪些问题?本文将通过阿里云在政企云平台“一云多芯”的实践经验,为政企落地一云多芯战略提供更多参考。

北斗七星_画板 1 副本 3.jpg

“一云多芯”三步走,每步课题皆不同

以完整的应用上云过程作为主线,以“一云多芯”路线作为预设课题,云平台IT负责人的工作可以分为“云平台建设、应用迁移/上云、运维管理”三个阶段,分别有不同的需求和痛点。

D7282E9D-5049-4F71-9D94-D6CE6CC83A6B.png

1. “一云多芯”云平台建设

课题一:保障供应安全

供应链安全是政企建云时的重要考虑因素之一,“无硬件绑定、可按需选择硬件设备”是常见的基本要求。本着不把鸡蛋放在一个篮子里的原则,云平台需要兼容足够多的主流芯片及厂商整机,来保障政企具备可持续的供应链体系。

在此阶段,企业需要重点考察云平台对于国产硬件的支持能力,如CPU、GPU、国产网络设备等的兼容能力。另外,在云原生时代,全栈云产品被广泛采用,所以对于“多芯”的支持不能仅停留在部分云产品上,而应该拓展至全栈产品,才能在后续实际应用中显现出价值。

飞天企业版是阿里云为政企构建的基于飞天云计算操作系统的企业级云平台,其硬件兼容能力包括:

  • CPU:支持一云6芯,具体包括intel、海光、鲲鹏、飞腾、倚天710等共6种芯片,支持近20家国产化芯片服务器厂商。以上芯片均支持全栈建云,用户可以根据需求进行灵活的多场景混部,从而获得持续的硬件供应链安全保障。
  • GPU:支持NVDIA、海光DCU、寒武纪等主流芯片,且正在适配更多GPU。

  • 网络设备:支持锐捷、华为、紫光恒越、迈普、中兴等国产网络设备。

课题二:设备在线替换
在建设全国产芯片云平台的过程中,很多企业已有一个或多个云平台,如果完全采用新建的方式,会面临“一次性投入巨大、业务跨云迁移复杂、浪费已有设备投资”等问题。企业迫切希望能以“低成本、低风险”的方式,分期、逐步实现全量替换。

针对这个需求,阿里云提出“在线替换技术”,企业不需要通过建设一朵全新的云平台来进行替换,而是在保证业务不停机的状态下,通过逐步提升原有云平台的国产硬件比例,直到实现最终的全量替换,从而用低成本和平稳的方式过渡到终态目标。这一技术的难点主要体现在两个方面:

  • 高可用要求:产品需要具备集群内、跨集群迁移、多集群切流、RMA替换等多种场景下的高可用能力,对上层业务无影响或者影响极低。
  • 成熟工具支撑:该方案需要完善的可视化工具体系支撑,如存储、数据库等跨集群迁移、RMA下线的自动化体系支撑。

经过多个版本的迭代实践与验证,阿里云飞天企业版已经具备了全栈产品的在线替换能力,目前已完成多个生产环境下intel芯片原地轮转替代项目,并形成了完整的方法论、工具集、实施流程与最佳实践,大大降低了企业建设国产云平台的总体投入成本。

2@2x-100.jpg

课题三:支持普适场景
目前部分国产芯片在应对普通业务场景时游刃有余,但在面对一些对并发性能要求极高的重型应用、核心数据库场景时,却面临投入成本过高或者性能无法满足要求等问题,这也是很多企业在推进“一云多芯”时普遍存在的疑虑。因此,“一云多芯”解决方案应支持为“普通应用”和“性能型应用”提供兼可运行的普适环境。

为解决性能问题,阿里云CIPU架构应运而生,通过软硬一体的设计理念,自研神龙硬件和网络协议栈保证了国产芯片的高性能。在一些大型金融客户的业务场景所做的测试中,阿里云CIPU架构体现了如下优势:

  • 零损耗不抖动:计算节点0损耗,不会发生“VM管控与VM上应用”因资源竞争导致的业务抖动、性能下降。
  • 延时大幅下降:得益于自研的网络协议栈和硬件加速,相比普通KVM节点,节点间访问延时下降接近1倍。
  • 极致存储性能:支持基于NVMe PR协议的共享盘,VPC网络、EBS存储采用芯片加速引擎实现快路径转发,单盘访问延时下降20-30%,大幅超越传统存储架构(KVM+Ceph/SAN存储等)。
  • 降低整体TCO:借助“虚拟化0损耗、可用核数增加、应用间调用延时下降”等优势,同样机器规模可提供更大业务并发,能有效降低采购的总体设备数量,从而降低TCO。

    4@2x-100.jpg

2. 应用上云与迁移

在云平台建设完成之后,企业将进入应用部署、适配的上云阶段。由于面临异构指令集的场景,企业可能需要对应用进行适配,目标是平稳高效地完成迁移。

课题四:降低应用适配的成本与风险
企业应用一般可分为两类,一类是三方通用产品,另一类是客户自行开发的业务应用。

在三方通用产品迁移过程中,企业需要考察云平台的生态兼容性。比如针对业内较为常用的数据库、中间件、行业应用产品,阿里云成立了以“云”为载体的“生态认证中心”,提前与广大合作伙伴进行了各种芯片的兼容性互认证,来降低企业自行适配的复杂度和工作量,提升了企业应用迁移的效率。

2@2x-100-XXX.jpg

对于企业自行开发的应用,迁移可能牵涉到代码的适配改造与性能调优,可利用迁云工具帮助IT人员简化迁移工作量。比如,在阿里云飞天企业版一站式迁云中心的工具体系里,集成了相关的跨平台工具:

  • 跨平台代码扫描
    阿里云飞天企业版提供从x86架构迁移到ARM等架构的代码迁移扫描能力,只需将应用代码上传到一站式迁云中心,即可获得一份完整的代码扫描报告,包含需要修改的代码内容、代码改造建议、总体工作量预估等,大大降低企业应用“黑盒适配”带来的试错成本。

    图片2.png


    图片3.png

  • JVM代码调优
    针对大量企业以java为主的情况,阿里云将自身多年来沉淀的跨平台JVM调优实践经验集成至一站式迁云中心的工具里,客户可以简单设置迁移前后的应用场景、基础配置等,平台会自动给出优化的建议措施,降低性能调优的复杂度。

    图片5.png

  • CentOS替换
    针对CentOS停服场景,阿里云飞天企业版一站式迁云中心内置了CentOS迁移到国产Anolis的迁移评估工具。用户只需要在原有CentOS系统运行对应的agent,将对应生成文件上传一站式迁云中心,即可获得一份完整的OS迁移报告,提前了解和应对迁移风险项,高效完成CentOS的迁移。

    CentOS.png

3. 运维管理
在云平台建设、应用迁移上云完成之后,企业将进入探索“用好云”的阶段。这一阶段的核心课题是保障系统的稳定性,并基于“一云多芯”的环境不断提升运营运维效率。

课题五:因地制宜,发挥不同芯片的优势
由于不同芯片具备不同的架构和性能,企业需要基于芯片特点进行应用部署,比如将不同的芯片用于生产、测试、核心应用、普通应用等不同的场景中。这要求企业的云平台要具备可以基于不同芯片进行实例创建与管理的能力。

以创建Maxcompute项目为例,飞天企业版可以自动筛选出目前已部署的芯片集群,并将可选择的芯片提供给IT管理员选择创建,后续所有的相关计算、存储都可以基于芯片维度展开。

芯片架构.png

课题六:基于特定芯片的运维管理
经过一次或多次建设后,企业的云平台已经形成了多种芯片并存的局面,如何能够方便查看不同芯片在云平台的使用和分布情况成为很多客户运维中关注的重点。

飞天企业版帮助客户更直观、简单地掌控多芯的现状,如用户在实例界面可以清楚地看到目前实例的芯片类型:

961F11F7-B267-4A9E-BE32-0ABEAE1CAB11.png

在云管理平台首页,用户可以直观看到各种芯片服务器、云实例的统计,便于进行资源的宏观分析、调配与管理。

C4983068-C4BC-4c45-96EA-F0BE78E88095.png


1B6270C7-C36C-4fcc-974A-EFC374C7487E.png

“一云多芯” —— 云计算是IT走向自主可控的关键路径

作为业内最早提出“一云多芯”概念的云计算厂商,阿里云明白政企选择“一云多芯”路线主要是为了应对未来的不确定性而“未雨绸缪”,所以阿里云也会站在未来,在软硬件生态方面坚定执行“开放兼容”的策略,长期为企业提供平等的多芯的选择。

如今,云原生趋势不可阻挡,其所带来的分布式特性,也能有效弥补单机芯片性能不足等问题。然而,云厂商在将其全栈产品适配多芯的过程中,也会面临更大的研发挑战。比如阿里云飞天企业版承载着80+云产品,每个云产品至少要适配6种芯片,还有各种容灾、备份等复杂场景,并需要基于市场需求进行迭代和升级。阿里云之所以可以从容应对,并不断提升“一云多芯”的产品技术水位,一方面得益于其完整的一云多芯工程化体系能力,从研发投入侧保障一云多芯战略的可持续性;另一方面,阿里云所具有的“自研产品/掌握核心代码”,是快速适配不同芯片、提升芯片性能表现的底气所在。阿里云飞天云计算操作系统、IaaS、中间件、数据库、大数据等全栈自研产品,在适配中具备内核级支持和改造能力,不依赖于开源社区,能有力支撑一云多芯战略的高效执行,从而成为政企“一云多芯”前进道路上的可靠伙伴。

目前,阿里云基于多年来在“一云多芯”领域的战略投入和布局,已在政务、金融、能源、电力、交通、医疗、通信、传媒等全行业累计了数百个成功实践。未来,阿里云将继续坚持“自主研发 + 全面兼容 + 普适开放”的理念,与政企一同实现各种复杂需求、复杂场景下的多芯混部,保护政企的供应链安全和业务平稳运行。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
5月前
|
人工智能 运维 安全
阿里云以飞天企业版,重新定义AI时代政企云平台
云栖大会飞天企业版发布创新能力,支持原生混合云演进路线
446 0
|
机器学习/深度学习 运维 Dubbo
全国首个政企采购云平台:政采云基于 Dubbo 的混合云跨网方案实践
全国首个政企采购云平台:政采云基于 Dubbo 的混合云跨网方案实践
全国首个政企采购云平台:政采云基于 Dubbo 的混合云跨网方案实践
|
7月前
|
机器学习/深度学习 Kubernetes Cloud Native
SAP 云平台 (Cloud Platform) 架构概述
SAP 云平台 (Cloud Platform) 架构概述
161 1
|
7月前
|
移动开发 IDE Java
SAP 云平台从 Neo 到 Multi-Cloud 的演化历史
SAP 云平台从 Neo 到 Multi-Cloud 的演化历史
159 0
|
7月前
|
数据中心
什么是 SAP 云平台的 multi-cloud architecture
什么是 SAP 云平台的 multi-cloud architecture
62 1
|
7月前
|
机器学习/深度学习 JavaScript 前端开发
SAP 云平台 ABAP 编程环境的前世今生
SAP 云平台 ABAP 编程环境的前世今生
67 0
|
7月前
|
JavaScript Java Apache
SAP 云平台多目标应用 Multi-Target Application 的开发技术介绍
SAP 云平台多目标应用 Multi-Target Application 的开发技术介绍
132 0
|
7月前
|
存储 测试技术
SAP 云平台上的 ABAP 编程环境里如何消费第三方服务
SAP 云平台上的 ABAP 编程环境里如何消费第三方服务
39 0
|
SQL 移动开发 IDE
SAP 云平台从 Neo 到 Multi-Cloud 的演化历史
SAP 云平台从 Neo 到 Multi-Cloud 的演化历史
|
数据中心
什么是 SAP 云平台的 multi-cloud architecture
什么是 SAP 云平台的 multi-cloud architecture