“一云多芯”成为事实上的标准,三步走,每步课题皆不同
近年来,国内半导体行业面临严峻考验,云平台作为IT基础设施,成为了政企客户的“IT生命线”。2019年,众多国产芯片百花齐放,本着“开放兼容”的理念,阿里云率先提出和践行了“一云多芯”战略。现如今,“一云多芯”已成为政企在规划和建设云平台时的标准和基本要求。
狭义的“一云多芯”是指在一个云平台内可同时采用多种异构CPU等类型的国产芯片,而广义的“一云多芯”要求提供从CPU扩展到GPU/NPU、网络设备、以及各类行业生态应用、政企自建应用的全域兼容能力,能够支持云平台从建设、应用迁移、到运维管理的全生命周期的能力,助力政企客户构建安全可信的IT基础设施。
“一云多芯”的重要性不言而喻,那广大的政企客户在实施“一云多芯”战略时,要考虑哪些问题和遵循怎样的路线?本文将通过阿里云在政企云平台“一云多芯”的实践经验,为客户提供更多参考。
以完整的应用上云过程作为主线,以“一云多芯”路线作为预设课题,其工作可以分为“建设、迁移、管理”三个阶段,每个阶段分别有不同的需求和痛点。
【建设】
课题一:确保供应链安全
供应链安全是“一云多芯”的核心出发点之一,“无硬件绑定、按需选择厂商”也是政企客户在采购时的基本要求。从供应链安全的角度考虑,本着“不把鸡蛋放在一个篮子“的原则,云平台需兼容足够多的主流芯片及整机厂商,来保障供应链安全。
在此阶段,政企客户需要重点考察云平台对于国产硬件的支持能力,包括CPU、GPU/NPU、国产网络设备等各类型。此外,在云原生时代,全栈云产品被广泛采用,所以对于“多芯”的支持不能仅停留在部分云产品上,而应该拓展至全栈产品,才能在后续实际应用中显现出更多业务价值。
飞天企业版是中国最早研发并部署在大型政企客户私域环境下的全栈云平台,是飞天云计算操作系统的专有云部署形态,与公共云同根同源,采用同一套技术架构,目前对于多芯的兼容能力做到了最强:
CPU:在信通院一云多芯的行业标准测评中,阿里云是唯一一家以最高等级通过五大标准测评、支持一云六芯的云计算厂商,覆盖“Iaas、PaaS、平台性能、稳定性和云管工具兼容性”这五大关键维度;具体包括海光、鲲鹏、飞腾、倚天710等6种国产芯片,支持20+国产芯片服务器厂商。用户可以根据需求进行灵活的多场景混部,从而获得持续稳定的硬件供应链安全保障。
GPU/NPU:支持海光、昇腾、寒武纪、 燧原、天数、登临等国产主流芯片,用户可以基于这些芯片完成“国产智算体系”的搭建。
网络设备:支持锐捷、华为、紫光恒越、迈普、中兴等具备国产芯片的网络设备。
课题二:低成本平稳替换
现阶段,很多政企客户已有一个或多个云平台,如果采用新建国产云平台的方式,会面临“业务跨云迁移复杂、投入成本高、浪费已有设备投资”等问题。因此,政企客户迫切需要“业务影响小、替换成本低、替换难度低”的平稳替换方式。
针对这一需求,阿里云推出“在线轮转替换技术”,用户无需新建云平台,而是可以在业务不停机的状态下,通过逐步提升原有云平台的国产硬件比例,直到实现最终的全量替换。
通过该方案,用户可以以较低成本、更加平稳的方式过渡到终态目标。实现“在线轮转替换”的技术难度主要体现在两个方面:
高可用要求:产品需要具备在集群内、跨集群迁移、多集群切流、RMA替换等多种场景下的高可用能力,对上层业务无影响或者影响极低。
成熟工具支撑:该方案需要完善的可视化工具体系支撑,如存储、数据库等跨集群迁移、RMA下线的自动化体系支撑。
经过多个版本的迭代实践与验证,阿里云飞天企业版已经具备了包含IaaS、数据库、中间件、大数据、安全等全栈云产品的在线替换能力,目前在客户的生产环境下已完成多个intel芯片原地轮转替代项目,并形成了完整的方法论、工具集、实施流程与最佳实践,大大降低了客户建设国产云平台的总体投入成本。
课题三:性能深度调优
国产芯片处在发展走向成熟的阶段,往往存在“NUMA数量多、跨Die带宽、跨Socket带宽偏低”等特点,相比intel芯片的性能普遍存在一定差距,其是否能满足核心业务的需求?很多客户对阿里云提出了类似的问题。
针对该问题,阿里云基于不同芯片的特点,进行了软硬件的联合调优,最大化发挥各国产芯片的能力。通过不断的努力,云产品的性能相较优化前实现较大提升,给客户提供了一个可用、敢用的国产运行环境,同时也致力于帮助国产芯片争取到宝贵的窗口赶超期。
【迁移】
在云平台建设完成之后,将进入应用部署、适配的上云阶段。面临异构指令集的场景,部分用户需要对应用进行适配,目标是平稳高效地完成迁移。
课题四:降低迁移成本
企业应用一般可分为两类,一类是三方商业产品,另一类是客户自行开发的业务应用。
在商业产品迁移过程中,用户需要考察云平台的生态兼容能力。比如针对业内较为常用的数据库、中间件、行业应用产品,阿里云成立了以“云”为载体的“生态认证中心”,提前与各类合作伙伴进行了各种芯片的兼容性互认证,来降低用户自行适配的复杂度和工作量,提升应用迁移的效率。
对于自行开发的应用,迁移可能牵涉到代码的适配改造与性能调优,可利用迁云工具帮助IT人员简化迁移工作量。比如,在阿里云飞天企业版一站式迁云中心的工具体系里,集成了相关的跨平台工具:
● 跨平台代码扫描
针对跨平台代码改造难、成本高的问题,“一站式迁云中心”开发了“跨平台代码扫描”功能,独家提供从x86架构迁移到ARM、C86等指令集的跨平台代码迁移扫描能力。
用户只需将应用代码上传到一站式迁云中心,即可获得一份完整的代码扫描报告,包含需要修改的代码内容、代码改造建议、总体工作量预估等,大大降低应用“黑盒适配”带来的试错成本。
图示:代码改造建议
● JVM代码调优
针对大量企业开发以java为主的情况,阿里云将自身多年沉淀的跨平台JVM调优实践经验集成至一站式迁云中心,客户在简单设置迁移前后的应用场景、基础配置后,平台会自动给出优化的建议措施,降低性能调优的复杂度。
● CentOS替换
针对CentOS停服与合规场景,一站式迁云中心内置了CentOS、OpenAnolis等迁移到阿里云服务器操作系统V3的评估迁移工具。用户可以一键完成操作系统的原地升级,无需进行数据迁移,大大降低迁移成本。
【管理】
课题五:多芯运维管理
经过一次或多次建设后,云平台已经形成了“一云多芯”,那么,“多芯管理”成为了管理人员面临的新课题。经过对多家客户的调研与实践,阿里云从实例创建、查询、展示等多个层面,形成了完善、标准统一的多芯云管体系。
● 基于芯片的实例创建
由于不同芯片具备不同的架构和性能,用户需要基于芯片特点进行应用部署,比如将不同的芯片用于生产、测试、核心应用、普通应用等不同的场景中。这要求云平台要具备可以基于不同芯片进行实例创建与管理的能力。
以创建PolarDB数据库为例,飞天企业版可以自动筛选出目前已部署的芯片集群,并将可选择的芯片提供给IT管理员,进行规格配置,后续相关计算、存储都可以基于芯片维度展开。
● 基于芯片的实例查询
飞天企业版帮助客户更直观、简单地掌控多芯的现状,如用户在实例界面可以清楚地看到目前实例的芯片类型。
● 基于芯片的大盘展示
在云管理平台首页,用户可以直观看到各种芯片服务器、云实例的统计,便于进行资源的宏观分析、调配与管理。
“一云多芯” —— 云计算是IT走向安全可控的关键路径
一云多芯有效缓解或消除了客户对国产芯片供应链安全的担忧,与此同时,一云多芯也同样是对云厂商的极大考验,尤其是具备全栈产品的云厂商。以阿里云飞天企业版为例,其承载着80+云产品,每个云产品至少要适配6种芯片,加上“跨Region、跨AZ”等复杂场景,形成了巨量的场景组合,对“产品研发、环境供给、版本发布”等都形成了巨大的挑战。
阿里云之所以可以从容应对,一方面得益于其“开放兼容”的基本理念,在研发侧坚定执行了一云多芯战略,形成了完整的一云多芯工程化体系能力;另一方面,阿里云所具有的“自研产品/掌握核心代码”,是“快速适配不同芯片、软硬联合优化”的底气所在。
基于多年来在“一云多芯”领域的战略投入和布局,阿里云已在政务、金融、能源、电力、交通、医疗、通信、传媒等多个党政与关基行业累计了数百个成功实践。
未来,半导体行业仍会面临较大的挑战和不确定性,阿里云将持续坚定地深耕核心技术、秉持“开放兼容”的策略,为政企客户IT供应链的安全可靠不懈努力。