一、数据爆发对基础设施带来的挑战
首先,先回顾一下八代产品在过去12个月中进行的一系列演进。从八代英特尔实例来看,今年5月,在八代英特尔实例上实现了一系列能力提升。从志强四代处理器SPR进一步提升到了五代志强处理器EMR,单核性能的提升大约在15%,同时在L3缓存、内存带宽等方面也进行了一系列优化,实现了算力增量不增价的调整。
在八代AMD实例中,通过超大规模的合力提升,实现了超高的性价比。如爱丽丝刚才所提到的,在最大客户,如小红书的推广中,真正为客户带来了实际价值。相较于其他友商还进行了一些技术创新,如实现了业界领先的双单路能力,将故障影响范围进一步缩小。在客户获得性价比收益的同时,进一步提升了稳定性,使客户的业务收益提升了30%。
关于倚天实例,S也提到过,通过自研芯片和自研操作系统,从底层的CPU到操作系统,再到编译器等一系列的优化,使得倚天产品相较于八代X86产品的性价比提升了40%以上。
在过去的12个月里,弹性计算主力团队持续提升产品能力,并将这些技术带来的收益转化为客户的业务价值。在今年6月的飞天发布时刻,宣布对八代产品的价格体系进行了进一步优化。其中对八代AMD实例的包年折扣和节省计划进行了大幅调整,平均降幅达到13.5%以上,为客户使用超高性价比的产品提供了更多价值。
对于八代英特尔实例,我们在6月的飞天发布时刻也对其目录价、包年价以及sukure进行了全面优化。在平均算力提升15%的基础上,价格与预期实现了完全持平,真正做到了增量不增价的普惠价值。随着客户业务的持续发展,产品也在不断迭代,并处于快速发展的AI时代,AI和大数据的快速发展使得数据呈现爆发性增长,同时大量云原生的应用也将上云。数据的增多和应用的增多对云上算力的性能、灵活性提出了更多要求,同时也对稳定性和安全性提出了挑战。
二、阿里云持续算力演进
针对这些诉求,阿里云弹性计算的通用实例团队持续进行产品引进。今年发布了全新的CIPU 2.0架构,基于这一架构将上层的计算、存储、网络等资源持续、快速地虚拟化,同时叠加全新的CPU处理器以及一系列灵活的产品能力,满足客户在性能、灵活性、安全性等各个维度的提升需求。
1.CIPU2.0
九代产品的最新技术底座——CIPU 2.0。在2022年的云栖大会上发布了CIPU 1.0,这是一个基于云、为云而生的全新技术架构体系。通过快速虚拟化以及数据加速,它树立了业界的标杆,并引领了云计算技术架构的演进。在此基础上,我们今年进一步升级到了CIPU 2.0,在性能、稳定性、安全等各个维度都进行了显著提升。
三、九代平台级能力再提升
九代产品基于CIPU 2.0,将带来一系列平台能力的提升。这些提升包括但不限于以下几点:
1. 灵活的资源配置
随着越来越多的应用上云,它对计算、存储、网络等各种资源的灵活配比提出了不同的需求。传统的弹性计算通用实例相对固化,可能无法满足一些客户对极致性价比的追求,甚至会造成成本浪费。而在九代产品中,在计算和存储各个维度的搭配上,标配了伊利弹性直盘能力,客户可以伊利弹性直盘能力和算力快速结合,根据实际需求云化地分配资源,实现数据缓存场景下的高效性价比。基于CIPU 2.0在设备密度层面做了大幅提升。越来越多的创新应用会基于云原生、容器的方式部署,这对底层资源的设备密度提出了更高的要求。在九代产品中,如云盘密度提升了一倍,单个实例最高可挂载盘数达到192个,大幅提升了客户在细粒度情况下对设备的需求。
2. 丰富的安全性
安全维度一直是阿里云通用计算持续追求的技术实力。最早在业界推出了基于可信计算的产品,并落地了机密计算等一系列能力。在搭载CIPU 2.0的九代产品中,在可信计算和机密计算基础上,进一步增加了APC加密,形成了数据各种形态的安全能力闭环。
3.持久的稳定性
稳定性一直是通用计算的核心根本。在性价比和密度持续提升的同时,如何在高密场景下实现通用计算的持久稳定性,一直是我们面临的挑战。在九代产品中,基于CIPU 2.0,实现了更高的安全能力。尤其是在九代全系列产品均采用martyhouse设计模式,使用双单路方式,最大程度降低爆炸半径。同时基于故障预测能力,为客户提供了更好的故障逃逸能力,使客户感知的当机率进一步下降。
四、第九代Intel平台企业级计算实例
在平台能力提升的基础上,接下来将具体介绍今天发布的九代两款实例,基于英特尔平台的G9i和基于AMD平台的G9A。
1.英特尔平台的第九代实例G9i
G9i是基于英特尔即将发布的最新一代(智强六代)处理器构建的。英特尔预计在本月底会正式发布这款处理器。我们采用了pi kao的方式,即高性能盒装,以确保其性能的持续提升。同时在硬件层面进行了一系列的能力提升。例如,内存通道从8通道提升至12通道,内存频率从5600提升到了6400MHz,L3caisi也进一步提升,综合实现了算力的持续提升。在IO维度上,借助CIPU的加固,持续进行IO加速,包括密度的提升。通过这样的提升,网络连接数会提升两倍,RDMA时延保持在8微秒的水平,同时整机的LPS(每秒处理的事务数)进一步提升20%。
在云盘密度方面,以我们的客户使用小规格实例为例,之前的小规格实例只能搭载8块硬盘,但在九代中,即使是最小规格的实例,也可以搭载16块硬盘。而大规格实例则从64块硬盘可以进一步提升到192块硬盘。
在安全层面,PBX、核心计算、Include以及内存加密等一系列能力在九代上都会进一步演进。通过这一系列能力的提升,包括算力、IO等,九代英特尔实例G9i在数据库、游戏、传统的AI推荐、通用的企业应用以及金融交易等在线系统上,相对于上一代来说,性能有了更好的提升,平均性能提升15%以上。
在通用能力的提升基础上,G9i还有自己的一些特点。这里重点介绍两点:第一个是专业硬件的加速。英特尔的芯片原生具备了一些加速的专用硬件,这里重点强调两个专用硬件,AMX和QAT。
AMX是英特尔引擎的一个专用的矩阵加速硬件。在一些举例运算的场景中,它的性能提升都是数倍以上的。以奔驰Max的测试验证来看,其提升都在两倍左右,甚至更高。在实际应用中,如大数据训练的前置数据清洗工作、一些矩阵级的工作中,通过AMX可以大幅提升效能。在八代的英特尔实例中就已经发布了这一特性,并已经实现了商业化。在实际的客户项目中,客户在进行大模型训练的前置数据清洗过程中,通过开启AMX加速器,实际的业务性能在相对于期待提升40%的基础上,进一步又提升了30%,真正为客户带来了高性价比的能力。
九代相对于八代在AMX上有哪些进步呢?九代产品上的AMX进一步演进,最大的特点是支持了FV16。相对于BF16,FV16的精度更高,在一些对精度有诉求的场景中更有优势。同时FV16的形态更成熟,可以更好地兼容客户的应用。这是九代相对于八代在AMX上的提升。
同时,九代依然标配了QAT加速器,更多应用于数据加密、数据加速压缩的场景中。通过这样的方式,可以实现数倍级的能力提升。尤其是在Web加速、NX加速以及数据库的数据压缩、解压缩等场景中,客户可以拿到大幅的收益。
九代英特尔实例在通用算力上普遍进行了提升,同时在硬件加速器方面,AMX和QAT持续演进。在这两个维度之外,安全一直是通用计算所追求的重点。今天重点介绍的依然是TDX。TDX是我们在八代实例上联合英特尔做的全球首发。现在,TDX作为机密虚拟机,在金融以及AI领域逐步开始商业化。
这里又联想到近期的一个事件,即本月苹果发布了其最新的iPhone 16。众所周知,iPhone 16相较于其前代机型,在性能和传统的影像领域均有所提升。然而其最大的卖点在于AI功能。苹果在推广其AI功能时,特别强调了一个核心优势,即隐私保护。
对于终端AI而言,端侧的推理或计算处理通常在隐私保护方面相对容易实现。但对于一些大型应用,由于端侧算力受限,因此iPhone 16或某些型号如iPhone 15,乃至更早的产品,可能无法完全展现某些AI能力。这是因为这些应用对端侧算力提出了更高要求。在这种情况下,云上更强的算力能够支撑更复杂的推理及应用。然而这引发了数据安全与隐私的担忧。因为虽然端侧在隐私保护方面相对更安全,但一旦数据上传到云端,如何保护隐私便成为了一个客户普遍担忧的问题。
基于这一担忧,苹果在今年发布时对其技术研究进行了阐述,并提出了一个理念——隐私云计算。其中最核心的一点是可证明的透明度。这一技术逻辑与阿里云推广的PDS机密计算思路不谋而合。阿里云在去年便推出了这一计算能力。
同时,国内top级云厂商也意识到了数据隐私方面的挑战,因此联合阿里云做了一系列PUC实践。他们将客户的隐私数据上传到阿里云的TDX机密虚拟机中,进行一系列处理,然后将处理结果返回给客户端。通过这种方式,以可验证的透明性来保证客户业务的隐私安全。
此外,也提到了苹果iPhone 16的AI功能在国内尚未上线,这同样涉及到相关挑战。因此机密计算或隐私计算相关场景及其未来发展空间值得充分想象。
在提到这一点时,也回顾了8代产品已经具备了TDX技术。那么9代又有哪些引进和提升呢?在英特尔联合开发的过程中,9代在TDX能力上进一步做了一系列提升。
首先,加密技术从AES128升级到了AES256,安全水位得到进一步提升。同时加密密钥数量从128个提升到了1024个,这有利于客户更细粒度地使用TDX机密虚拟机。
其次,阿里云与英特尔联合开发了动态内存管理技术,将TDX这一相对固化的硬件特性进一步云化处理,使其成为一个通用性产品,并持续优化为通用能力,方便客户更灵活快速地使用这一机密计算产品。
九代英特尔实例在通用性价比、场景化加速器以及机密计算安全能力等方面在九代都做了一系列得提升。
2.基于AMD CPU的九代G9A
弹性计算已经推出了三代基于AMD处理器的实例产品,从罗马、米兰到热那亚,包括最新的热那亚一代产品G8A,在推广过程中取得了巨大的商业成功。阿里云与AMD团队持续紧密合作,从安全稳定等各个维度做了大量加固工作。线下客户在沟通过程中也一直反馈,他们非常佩服阿里云的技术实力,能将高达384核CPU的服务器的稳定性做到如此高的程度。这也是阿里云与合作厂商共同进步的结果。
在9代上,相对于8代来说,阿里云在整个性价比方面做了进一步提升。这涉及到CPU能力以及CIPU 2.0能力的强项联合。CIPU 2.0从CPU处理器维度来看,AMD这一代采用了更先进的制程处理器,实现在更高密度情况下更好的性能表现。包括算率提升(单核算率提升20%以上)、IO能力提升以及L3缓存等各种维度的算力能力的提升。同时叠加了CIPU 2.0这种超高的IO能力(IO能力提升都在50%以上)。通过这样的算力、IO能力以及稳定性各方面的增强,实现了九代AMD实例在性价比优势上进一步的延伸。
九代AMD实例一直走高性价比路线,并得到了业界的认可。刚才提到在9代英特尔实例上持续强调安全性,那么在AMD实例上安全性是否会有落后呢?其实并不会。因为在9代AMD实例上,阿里云做了一系列能力增强,将数据的存储态、传输态和运行态三个形态的安全能力全部进行了加固。
存储态方面,阿里云提供了丰富的加密手段,包括云盘加密、镜像加密、操作系统加密等,技术相对成熟。传输态加密则对硬件设备和处理器等层面提出了更大的挑战。在基于CIPU 2.0平台上,阿里云实现了全量的VBC加密,实现数据从传输端到端的全闭环安全。
此外,Inter平台具备精密计算能力,在AMD平台上阿里云也具备了精密计算能力。今年在9代产品上会发布SDV-SMP能力,将CPU的内存以及寄存器里面的数据进行硬件加密,确保客户数据在云上的端到端安全。
从上图可以看到,从存储态到传输态再到运行态,九代AMD实例真正做到了在国内数据端到端的安全加密,充分展现了其性价比和安全优势。
英特尔和AMD实例在性价比维度上一直给客户带来很大的业务价值。在AMD实例擅长的搜推等场景中,9代做了很大的提升。因为8代在规模化商业化的过程中,客户的业务持续快速增长,训练参数的规模也持续增大。
在这个过程中,9代AMD实例相对于8代在单核浮点性能上提升30%以上,内存带宽提升35%,网络带宽等各种IO能力提升50%以上。同时标配了RDMA协议,进一步降低了协议级负载的资源开销。在这样的多管齐下形势下,G9A实例在搜推场景中预期会以八代AMD实例的性价比进一步提升30%,助力客户实现更高的业务价值。
五、阿里云第九代企业级实例算力再升级
基于全新的CIPU架构,搭载了业界最新的处理器平台,阿里云第九代实例将在性能、安全、稳定等关键技术领域持续引领。其中G9I实例搭载英特尔即将发布的最新一代智能处理器,通用性能持续提升,内存带宽和L3缓存也持续提升,并标配AMX PVT加速器能力。同时在计算能力方面进一步引领行业发展。G9A AMD实例则搭载阿里云即将发布的都灵先进处理器,并标配端到端加密能力,实现数据在云上的绝对安全,进一步提升其在高性价比路线上的优势。通过这样的方式,阿里云持续为客户提供价值,并更适合于搜推、大数据处理等场景。阿里云将持续深耕技术、进行产品创新,在高速发展的AI时代为客户提供更加稳定强大、安全弹性的计算服务。