阿里云峰会现场探班,“一云多芯”强在哪?

简介: “韩信点兵,多多益善”,目前云平台能管理的节点已经越来越多了,但是跨CPU架构的不同节点进行统一管理还是一个业界的难题,这几天笔者现在参加了阿里云峰会,个人认为阿里云智能总裁张建峰发布了“一云多芯”是今年以来云计算发展史上最具有革命性的技术之一,在“一云多芯”的模式下,飞天云操作系统可以将服务器芯片、专用芯片等硬件封装成标准算力,无论底层是X86、ARM还是RISC-V,给客户提供的都是标准的、高质量的云计算服务。但一云多芯解决了这个痛点

“韩信点兵,多多益善”,目前云平台能管理的节点已经越来越多了,但是跨CPU架构的不同节点进行统一管理还是一个业界的难题,这几天笔者现在参加了阿里云峰会,个人认为阿里云智能总裁张建峰发布了“一云多芯”是今年以来云计算发展史上最具有革命性的技术之一,在“一云多芯”的模式下,飞天云操作系统可以将服务器芯片、专用芯片等硬件封装成标准算力,无论底层是X86、ARM还是RISC-V,给客户提供的都是标准的、高质量的云计算服务。
图片3.png

以往云操作系统只能对一种架构的CPU进行硬件细节屏蔽,比如英特尔X86不同CPU的型号可以组成一个集群,云上的租户在使用云服务时不会感受到实例到底使用什么型号的CPU。但是如果你的云平台上又有X86又有ARM,那么就只能用两朵云分开管了。之前以X86为代表的CISC处理器主攻服务器和云计算机市场,而以ARM、RISC-V为代表RISC处理器主攻移动与物联网终端,两者基本井水不犯河水的。不过最近形势发生了变化。
开启新大门的RISC
英伟达在发起收购ARM之后,如期在4月的新品发布会大会上如期拿出了首款CPU芯片Grace, 由于ARM使用RISC风格的精简指令集, ARM核心在指令预测等方面同天然比X86更有优势,能耗也比X86更低。当然这些都是ARM相对于X86的传统优势,本次Grace最大的创新点在于把CPU与GPU之间的通信速度提升了近10倍。根据黄仁勋的说法,“这是一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。”
从最新的AI发展趋势来看,最新的人工智能模型对于算力的要求往往都是非常高,比如那个可以自动写代码的GPT-3其参数规模突破了1000亿,阿里摩院的发部的GPT-3中文版本PLUG参数规模也旗鼓相当,而GPT-3的变种可以将文字描述转化为图像的跨模态生成模型DALL.E,其整个模型的参数数量更是超过 1500 亿,达。不少科学家直接指出,越大的模型往往表现更好,扩大规模可能仍然是实现更好性能的方式。用黄仁勋在发布会上的话来说“三年间大规模预训练模型的参数量增加了3000倍。我们估计在 2023 年会出现 100 万亿参数的模型。”可以说随着模型越来越大,普通的创业公司只有通过AI云才能使用到最新、最好的AI模型,因此笔者个人认为N厂Grace所先把的技术路线完全正确。
令人难以割舍的X86
但是英特尔最新发布的至强三代Ice Lake芯片中的安全计算指令集SGX也同样令人难以割舍,多方安全计算对于笔者这种长年在银行业工作的人来看绝对是面向未来的黑科技,所谓多方安全计算的应用场景可以百万富翁问题来表述,假如两个百万富翁街头邂逅,他们都想炫一下富,比比谁更有钱,但是出于隐私,都不想让对方知道自己到底拥有多少财富,如何在不借助第三方的情况下,让他们知道彼此之间到底谁更有钱?针对这个问题,在上世纪80年代,清华大学的姚期智院士提出了解决方案,并因此获取了图灵奖,从理论层面证明了多方可信计算问题的可行性。

但在实践层面多方安全计算依然困扰业界,尤其在笔者所在的金融行业更是如此,通常来说金融机构都有很多非常具有价值的数据,但是怎么发挥数据的价值却让各大银行犯了难,就算有宇宙行之称的工商银行,市场占有率也不到10%,单靠他们一家的数据训练不出特别好的模型,而把各大银行的数据都拿出来共享吧,又有客户隐私泄漏的风险。如何在不让其它参与者看到真实数据的情况下进行计算,把姚期智院士的解决方案落地,就成了一个难题。

在这个经典问题之下,目前只有蓝象智联的GAIA CUBE等少数几个平台能够做到让数据在不泄露的情况下联合多方的数据进行联合计算并得到明文计算结果,实现数据的所有权和数据使用权的分离,而且这还都是基于区块链软件技术机制保证安全可信。

而英特尔至强三代支持的SGX则从硬件角度彻底让用户打消顾虑,安全计算实际是给计算机加了一个安全密室,即使拥有最高权限的特权管理员也不能进入安全密室,更无法在安全密室前布放监控。安全密室与外界的一切交互全部要经过加密并进行完整性校验。

其实英特尔在几年前就已经实现了SGX技术,但当时SGX能创建的内存空间只有128M,而目前的AI机器学习模型动辙要上百M,大的甚至要几十上百个G,当时的SGX根本放不下这样的模型,无法在多方安全计算中使用。不过这次Ice Lake-SP最高可以支持1T的安全空间,这种程度的提升将全面拓展SGX的应用场景,比如腾讯就联合北京微芯边缘计算和区块链研究院,将区块链与SGX结合,保障数据安全性,做到最终数据可用不可见,从而打破目前各机构边缘之间的数据孤岛,发挥数据的最大价值。
一统江湖的一云多芯
那么现在的问题是,最终用户的需求往往是既想要英伟达ARM芯片的AI推理能力,又想进行X86的安全计算能力,如果按照以前的方案就必须要进行多云协同了,必须为ARM集群和X86集群分别建设存储与网络的配套设备整个云体系才能正常运转,不但会浪费一定资源还会带来多云协作的管理问题,而阿里云最新的一云多芯的方案,其实就是用一套云操作系统来管理不同架构的硬件服务器集群,它最大的特点就是可以将不同架构CPU的算力标准化,从而解决从根本上解决不同类型CPU共存所带来的多云管理问题,当然我们看到后续阿里云还会继续前行,真正做到从云操作系统的底层将不同CPU的算力标准化出来,也就是说如果除了某些特定的如安全计算等与具体架构绑定太深的需求以外,其余需求均可以在云的标准化资源池内得到满足。

相关文章
|
云安全 人工智能 运维
2022云栖大会 | 袋鼠云斩获阿里云生态伙伴双奖
11月3日至5日,2022云栖大会在杭州云栖小镇成功举办
418 0
2022云栖大会 | 袋鼠云斩获阿里云生态伙伴双奖
|
弹性计算 运维 监控
2022飞天技术峰会:硬之城如何基于 SAE 打造数智化电子工业互联网平台
全球数字化时代已经到来,数字经济正推动生产方式、生活方式和治理方式的深刻变化,成为重组全球要素资源,重塑经济结构,改变全球竞争格局的关键力量。
2022飞天技术峰会:硬之城如何基于 SAE 打造数智化电子工业互联网平台
|
人工智能 大数据 云栖大会
云梦智能荣膺“阿里云产品生态伙伴突出贡献奖”
2022年11月3日-11月5日,由杭州市人民政府、浙江省经济和信息化厅、阿里巴巴集团共同举办的2022云栖大会在杭州云栖小镇隆重召开。
257 0
|
边缘计算 运维 Cloud Native
大咖云集 论道边缘丨分布式云网在线研讨会成功举办
5月10日下午,分布式云网在线研讨会边缘计算专场——边缘计算的“术”与“业”在多家平台与网友见面。
321 0
|
监控 物联网 5G
中国移动国际将举办首届mCloud峰会,助企业运筹云端
中国移动国际有限公司(CMI)将于2021年5月28日举办首届mCloud峰会,助力企业把握云转型机遇,增强与客户、合作伙伴的数字互动,共同见证云网智能新时代。与会者不仅能够了解如何通过CMI数字基础设施及云服务帮助企业转型,还可获得免费试用和特别优惠,体验CMI mCloud云网融合创新解决方案。
268 0
|
云安全 运维 安全
|
存储 弹性计算 运维
2020年云栖大会——引领企业基础设施云化分会场邀您参加
2020年9月18日,阿里云邀您参加2020年云栖大会——引领企业基础设施云化分会场。
1730 0
2020年云栖大会——引领企业基础设施云化分会场邀您参加
|
人工智能 安全 大数据
2020阿里云线上峰会成功举办,阿里云智能总裁张建锋解密阿里云再生长
6月9日,2020阿里云线上峰会成功举办。在峰会上,《财经》主编何刚对话阿里云智能总裁张建锋,张建锋认为,经此一“疫”,原本需要3到5年的数字化进程,将在未来1年之内加速完成。
2020阿里云线上峰会成功举办,阿里云智能总裁张建锋解密阿里云再生长
|
人工智能 自然语言处理 达摩院