一云多芯,智能化转型的下一个工程化挑战

简介: 一云多芯,智能化转型的下一个工程化挑战

本文来源:云科技时代

进入2023年,产业数字化和智能化转型升级进入了大规模工程化落地阶段。根据中国信通院《中国数字经济发展研究报告(2023)》,数字经济已经占我国GDP比重达到41.5%,相当于第二产业占国民经济的比重。随着产业数字化和智能化程度的提升,算力服务越来越成为数字经济的底座。中国信通院测算,算力每投入1元,将带动3至4元的GDP经济增长。


所谓算力服务,即以多样性算力为基础,以算力网络为连接,以供应有效算力为目标的算力产业。中国信通院指出,目前算力服务供应形态主要以云服务为主,同时超算、智算和社会闲散算力等多样算力的任务式供给形态,也在积极探索与试验过程中。而云计算作为数字世界操作系统,云服务正在统筹超算、智算和普算而成为算力输出的主要界面。


芯片是算力的基础。为了解决当前在算力建设过程中出现的多芯局面,“一云多芯”理念逐渐获得了广泛的关注。作为国内领先的私有云厂商之一,浪潮云海首席科学家张东在2023中国算力大会上强调,“一云多芯”将成为云计算平台的核心能力之一,不仅是芯与云的融合,更是平台+生态的协同。“一云多芯”将有效解决智能化转型过程中的工程化挑战,以多样化算力帮助政企用户实现可持续的智能化。


算力成为智能化新基建


2023年大模型的爆火将算力基础设施推向新基建的风口浪尖。根据OpenAI发布的《AI and Compute》分析报告,自2012年以来,AI训练应用的算力需求每3.4个月就会翻倍,从 2012年至今,AI算力增长超过了30万倍。根据OpenAI,ChatGPT的总算力消耗约为3640PF-days,相当于当前一座超大城市总算力的3倍。


根据IDC与浪潮信息联合发布《2022-2023 中国人工智能计算力发展评估报告》,IDC预测,中国智能算力规模将持续高速增长,预计到2026年中国智能算力规模将达到1271.4EFLOPS,未来五年复合增长率达52.3%,同期通用算力规模的复合增长率为18.5%。在算力投资中,城市智能算力的投入已经成为推动区域数字经济发展的重要支撑,而2022年中国人工智能行业应用渗透度排名前五的行业依次为互联网、金融、政府、电信和制造,行业AI渗透度明显提升。

image.png

浪潮云海首席科学家张东


浪潮云海首席科学家张东强调,未来是智能化竞争,必须从信息化走向智能化,否则将完全落后于时代的发展,而智算中心就是未来的新基建。新基建的意义不仅在于可提供商业化服务,更是面向城市的公益性社会基础设施服务,在满足像大模型训练这样任务性的智算需求外,也可将算力资源开放给社会使用,从而广泛培养智能化人才和生态。


在2023中国算力大会现场,浪潮信息展示了目前业界领先的智算中心。该智算中心是一个预制化的、模块化的智算中心,集计算、存储、网络和算力调度于一体,覆盖不同的计算节点兼容国内外主流的CPU和异构加速芯片,可以支撑自动驾驶、生物制药、AIGC、智能制造等多样的应用,这样的一套数据中心可以实现两周内的交付,目前已经落地济南、南京、宿州等多个地区,为区域智能化新基建提供了建设新思路、新路径。


算力之上:标准化云操作系统


正如同当年的PC,之所以能够实现“全世界每一张桌子上都有一台PC”, 关键在于对于各国不同软件和硬件生态的兼容。目前,不同算力的主要对外输出界面就是云服务,那么提高云操作系统的兼容性就是实现算力服务普惠化、泛在化和标准化的关键。随着AI的发展,我们正从以CPU为中心,向GPU、DPU、XPU等多种加速计算芯片共存的算力体系发展,如何让云操作系统兼容多种芯片和指令集以及适配各种上层软件,就成为下一个挑战。


浪潮云海首席科学家张东强调,“一云多芯”要解决不同类型芯片共存所带来的多云管理问题,真正形成一朵云。“一云多芯”将成为IT产业链承上启下的关键环节,对下纳管底层各种芯片、操作系统,对中兼容各种类型的虚拟机、容器、数据库、中间件,对上适配各类云原生应用和软件,从而成为未来云计算平台的核心能力之一。

image.png

众所周知,业务应用软件或SaaS服务,需要面对芯片、操作系统、数据库等多种软硬件组合环境,在不同环境中开发、测试并在实际业务中验证和迭代。而在今天的多芯时代,随着各国和各厂商不断发展各自的芯片,可选处理器的范围越来越大,对于云操作系统的适配要求越来越高。但各芯片厂商都有着各自的标准,都希望拉动自有生态,导致云数据中心中各服务器芯片表现参差不一、用户体验难以一致、应用效果大相径庭,进而形成算力孤岛。


因此,“一云多芯”的最终目标是支撑用户业务在不同架构处理器之间的低成本切换或者自由切换。换言之,就需要实现应用与芯片架构的彻底解耦,支持应用在不同架构处理器间的等价切换。当然,这首先就需要对于不同芯片算力的统一测算,例如某厂商一个GPU的算力能够对等替换另一厂商多少个GPU的算力,需要达成业界共识;其次,还需要硬件、云和应用等产业链上下游的协同,实现应用层面的跨架构无感知切换;第三,对于开发工具来说,还无法做到完全架构无关,无论是Python或Java所编写出的应用,或多或少都与架构相关,因此需要推动应用开发与架构无关,将相关调用剥离到云操作系统层面处理;第四,数据与应用的分离,将数据层完全隔离,实现架构无关。


整体来看,“一云多芯”看似简单却是一个工程量极大的挑战,用好“一云多芯”就可以最大程度地降低技术路线选择风险,极大提升业务稳定性以及业务改造的灵活性,但要真正实现“一云多芯”却需要整个产业和生态具有共同的信念和决心,将“一云多芯”从标准、架构、测评、测试、开发等多个环节落实下去,真正打破不同架构的算力孤岛、实现不同架构之间的互连互通,而不是纳管不同芯片架构资源池的简单模式。


算力融合:“一云多芯”三步走


云操作系统对于不同芯片、芯片架构和应用软件的兼容,这是一个庞大的全生态的工程。在企业IT技术历史上,无论是VMware的虚拟化软件或是Oracle的数据库,企业IT软件的隐藏核心竞争力其实都是广泛的兼容性。但就像VMware与Oracle等兼容性工程都是由一家厂商主导并耗费多年的时间和投入才逐步实现的,更为重要的是当VMware和Oracle等软件的市场领导地位获得认可后,整个生态都会向VMware和Oracle等软件主动进行兼容。


对于发展历史尚短的云操作系统来说,无法在短时间内真正实现广泛的兼容性。浪潮信息是“一云多芯”的积极倡导者之一,作为独立于芯片、云和生态的第三方厂商,提出了“以应用导向、以系统为中心”、“分层解耦、开放标准”、“迭代创新、持续演进”的一云多芯发展理念,特别是务实地提出了三阶段推进策略,从而实现“一云多芯”的最终目标。

image.png

所谓“三阶段”推进策略,即:在第一阶段,实现异构节点统一池化管理,通过离线迁移、手动切换等方式实现应用跨架构,这就是“混合部署、统一管理、统一视图”,解决一云多芯“有”的问题;在第二阶段,在资源层、平台层和应用层实现分层解耦,厂商共同配合实现应用平滑切换及弹性伸缩,这就是“业务迁移、分层解耦、架构升级”,解决一云多芯“好”用的问题;在第三阶段,实现产业链上下游协同配合,打造标准、共同生态,打造垂直一体化方案,这就是“软件定义、算力标准、全栈多芯”,解决化一云多芯“优”化的问题。

image.png

张东表示,当前还处于“一云多芯”的第一个阶段,不少厂商或多或少都已经实现了不同程度的第一阶段“一云多芯”,接下来就是要攻坚第二阶段,即在资源层、平台层和应用层实现分层解耦。为此,浪潮信息在前不久推出了融合架构3.0原型机,也就是在服务器整机层面实现彻底的硬件资源解耦。融合架构3.0突破性实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,可支持多种通用处理器平台与GPU、FPGA、DPU等多种异构加速单元的协同计算,并可通过软件定义实现资源协同动态调度。


融合架构3.0原型机打破了以往“以CPU为中心”的设计理念,从整体出发、以系统为中心,通过硬件解耦将异构计算、内存、存储等资源转变为可独立扩展的资源池,用户可以根据应用需求实现资源的自由扩展。例如,大模型的训练需要更多的显存,但GPU卡带有的显存容量有限,在融合架构3.0的设计下,就可以将系统中的所有内存、显存都打通,极大扩展大模型训练可用的内存,同时也降低了对于GPU的需求。云海Incloud OS面向“一云多芯”在进行第二阶段改进,特别是在平台层和应用层推进解耦工作。作为Incloud OS的核心技术,根据Gartner的报告,云海服务器虚拟化系统Incloud Sphere连续两年获得国内品牌中国市场份额第一,目前居全球市场份额前四。InCloud Sphere可实现对x86、ARM等多元异构芯片的计算资源池化,最新版本可同时提供针对四种不同架构处理器的统管能力,进一步降低了用户对不同架构基础设施的维护难度。


为了创建了以“一云多芯”为核心的云平台参考基准,前不久云海OS完成了目前业界首个面向“一云多芯”场景的SPEC Cloud基准测试,并在三种处理器节点混合部署集群测试中,相对可扩展性、平均实例配置时间等指标均达到全球领先水平,验证了云海OS在业务应用跨处理器架构场景下的高效率、高性能和高扩展能力。同时,浪潮信息积极参加了由中国信通院牵头制定的《一云多芯技术能力标准体系》,并且云海OS以优异成绩通过一云多芯IaaS平台能力评估,获得“先进级”最高等级认证。


浪潮信息对于“一云多芯”的执着追求来自实际的客户需求。云海OS是业内最早支持“一云多芯”,拥有丰富的行业应用落地经验的。从2018年开始,浪潮信息依托云海OS帮助政府、金融、能源、交通等行业的数百家客户打造了“一云多芯”行业云,例如云海OS助力某省构建了国内规模最大、芯片种类最多的省级政务云平台,覆盖近2000台、三种架构处理器的服务器,并全面集成了基础软硬件、云平台、安全系统、运维管理系统、应用系统等。


整体而言:“一云多芯”是算力服务和云操作系统在全球芯片格局动荡和供应链不确定时期的应对之道,也是基于开源技术的云操作系统在发展到一定成熟阶段后的必由之路。相对于传统的服务器虚拟化软件,云操作系统遇到了更为复杂的多芯环境,需要同时面对多种成熟和发展中的芯片技术路线,这对于云操作系统的产品成熟度提出了更高的要求,也倒逼云操作系统厂商进行原始创新,走出独立创新之路。“一云多芯”也将从长期保障中国智能化的可持续发展,在全球智能化竞争中建立核心竞争力。



“云科技时代”的文章广泛出现在:微信公众号、天天快报、今日头条号、微博号、知乎专栏、搜狐新闻端、网易客户端、百度百家、百家号、一点号、CSDN博客、ITPub博客、新浪财经头条、新浪看点等。

“云科技时代”是今日头条优质科技作者、入选今日头条精选频道

“云科技时代”力作《读懂新基建:数字技术带来全民机遇》在京东、当当、抖音等电商平台以及全国各大书店有售,电子版上架"京东读书"和“微信读书”APP。

“云科技时代”所有文章均在www.cloudtechtime.com收录。


相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
3月前
|
自动驾驶 安全 物联网
探索未来网络:从5G到6G的演进与创新
本文旨在探讨移动通信技术从5G向6G演进的过程及其关键技术,揭示这一领域的最新趋势和挑战。通过分析5G的现状、6G的预期目标和技术特点,本文展示了未来通信技术的广阔前景和潜在应用领域。
|
3月前
|
运维 Cloud Native 持续交付
云原生技术:引领未来软件开发的新纪元
本文将深入探讨云原生技术,包括其定义、核心原则、关键技术、优势以及在实际应用中的案例分析。通过阐述云原生技术的创新性和实践性,帮助读者更好地理解和应用这一前沿技术,推动企业的数字化转型和业务创新。
|
6月前
|
机器学习/深度学习 人工智能 自动驾驶
未来智能化时代下的技术创新与挑战
在人工智能和自动化技术迅速发展的今天,技术创新不仅仅是提高效率和功能的追求,更是面对未来智能化时代中所带来的挑战,需要深刻思考和持续演进。本文探讨了在这一背景下,技术创新的本质、面临的挑战以及如何应对这些挑战的策略。
|
7月前
|
人工智能 运维 监控
2024新趋势下的“电力行业数字化转型建设方案”
电力行业作为节能减排的核心领域,其数字化转型在推动“碳达峰、碳中和”目标实现中发挥着关键作用。为实现这些目标,能源与电力相关行业需要发挥主导作用,而国家有关部门为此出台了一系列引导相关产业数字化发展的政策。对于电力行业而言,积极进行数字化转型不仅可以提高效率和效益,更是履行社会责任的重要体现。
|
人工智能 Cloud Native 大数据
从传统软件开发到云原生转型:大数据和AI如何引领软件开发的新趋势
从传统软件开发到云原生转型:大数据和AI如何引领软件开发的新趋势
262 0
|
人工智能 Cloud Native 前端开发
技术创造新商业-云时代研发效能的机遇和挑战
技术创造新商业,在不同的时代可以有不同的主题,但对算力、研发效能的提升以及为业务的发展提供非常坚实的底盘的需求是永远不会改变的。回顾过去,每一代新型的软件研发需求都会对软件工程基础带来巨大的推动。在2020阿里巴巴研发效能峰会上邀请了蚂蚁金服首席技术官程立为大家介绍在云时代研发效能的机遇和挑战,具体从“数字抗疫”对研发效能未来的启示及阿里巴巴研发效能提升的三大重点进行讲解。希望大家可以得到自己的思考和收获。
507 0
技术创造新商业-云时代研发效能的机遇和挑战
|
存储 运维 Cloud Native
聚焦行业云原生,为传统企业转型提供破局之刃
对传统企业而言,如果说云迁移解决了传统应用软件在云环境中的使用问题,达成了“能用”,那么原生化改造要解决的就是“好用”的问题,便于最大程度发挥云的优势,应对市场需求的变化。日前,由百易传媒牵头的行业云原生应用报告新闻发布会在线上召开。
|
人工智能 存储 数据中心
阿里巴巴软硬件一体化创新和工程实践
硬件飞速发展,容量越来越大,速度越来越快。在存储领域,单盘的容量由过去的百GB,演变到今天的数十TB。介质的延迟由毫秒级别到现在的微秒,再到纳秒级别。网络由过去的10G发展到今天的25G、100G,及未来演进到400G。
3837 0
|
安全 物联网 数据中心
这些趋势正对关键基础设施的创新研发带来深刻革新
当前,信息应用、数据中心、移动互联、数字化转型、高端制造、智能生产等等带来的巨大需求,使得关键基础设施设备的应用,成为崭新时代的重要角色。
1624 0
业内首创普惠保险,看国泰产险如何借助数据进行智能化的升级和战略转型
国泰产险精算产品部经理王帆在2018云栖大会上海峰会数据中台专场做了题为《业内首创普惠保险,看国泰产险如何借助数据进行智能化的升级和战略转型》 的分享,首先介绍了国泰产险的工作人员正在做什么,其次阐述了国泰产险对数据应用的理解及实践,最后对未来运用科技应用的方向做了一个展望。
2746 0
下一篇
DataWorks