2021年12月21日,阿里云弹性计算年度峰会在上海正式举行,并通过全实景直播的形式呈现。阿里云弹性计算产品总监王志坤发表了主题为“强劲可靠、无处不在的云,为创新保驾护航”的演讲,详细解读了阿里云弹性计算最新发布的重要产品和最佳用户实践。
图:阿里云弹性计算产品总监王志坤
01 如何让客户拥有更加安全、高效的运行环境?
弹性计算是阿里云最早、最基础的产品,已经发展了12年,这期间产品实现了高速创新,尤其在2017年神龙架构发布后,去年阿里云发布了“一云多态”的战略,今年推出第四代神龙架构,发布了eRDMA能力,使得众多客户能够在云上实现更多的创新。
近年来,视频直播、大型游戏以及很多重度的企业核心系统逐步上云,对于性能的关注越来越强烈;互联网企业核心系统不仅有资源横向扩展的需求,不同时间段对性能突发也有不同程度的需求;越来越多的场景,客户开始关注数据安全和隐私问题。
所以,在云上如何让客户拥有更加安全、高效的运行环境,也是阿里云思考的重要方向。
在2021年初,阿里云发布了第七代ECS实例,国内首家实现了网络性能及云盘性能的双突发能力,保证客户在应对瞬时I/O性能突发激增的情况下得到一个非常好的性价比。同时,第七代ECS实例全量搭载了TPM2.0芯片,全新构建了阿里云云上可信和Enclave全加密的计算能力。可以说,阿里云建立的是全方位、端到端、立体的安全防护体系。
基于自研神龙架构的极致性能,以及安全能力的加持,第七代ECS实例为客户提供了强大的支撑。阿里云ECS第七代实例以超强的算力护航完美世界的轻科幻大世界新游《幻塔》,为玩家提供极致顺滑的游戏体验;依托阿里云第七代实例独有的TPM+SGX可信+运营时安全的可信机制,洞见科技实现了数据智能联邦的构建,很好地打破了数据孤岛。
02 如何应对数据密集型计算带来挑战?
随着数据量的激增,数据密集型应用处理越来越多,除了算力、安全之外,对于网络还提出更高的要求。很多在线业务系统会使用内存型数据库应对海量并发挑战,但内存数据库和各系统间的网络延迟又成为了新挑战;大数据实时搜索、计算推荐引擎等场景,也是随着网络规模扩大,网络的延时对系统的时效性带来极大的影响。
此外,AI深度学习、HPC工业仿真等场景对时延更是敏感,这类客户传统方式是采用RDMA(Remote Direct Memory Access)网络,虽然时延上有很大优势,但是需要专有的设备成本高、组网非常复杂,也无法大规模应用。
公共云上诞生的VPC网络,成本低灵活便捷,也可以超大规模组网。但由于受到协议栈和技术的限制,时延只能做到20~30微秒,在如何平衡云上网络的弹性灵活性、低延时和成本等因素上,阿里云在产品布局和研发过程中做了非常多的努力。
最终,阿里云弹性计算在第四代神龙架构实现了eRDMA创新,并发布国内首个RDMA增强型实例c7re,实现了云上RDMA技术的普惠。整个过程,只需在用户业务系统里加载一个ERI(Elastic RDMA Interface)设备,数据透传操作系统,在VPC网络可以直接进行传输,整体时延降至5微秒。这一创新技术,让eRDMA网络和VPC网络在云上组成一张大网,使得更多的资源可以得到并池和弹性使用。
通过标准的Verbs接口,基于RDMA增强型实例构建的面向业务的新型加速的解决方案,对于很多业务系统都带来了非常显著的帮助,比如在Redis数据库场景性能可提升130%,在AI训练场景性能可提升30%。
随着计算的性能、安全、网络延迟的问题解决,整个系统的瓶颈又逐渐回归到内存,因为很多系统的数据在内存中,内存墙的瓶颈就出现了。内存相比硬盘贵很多,去年阿里云基于持久内存技术发布了内存型实例re6p,今年我们基于第二代持久内存技术对产品进行了升级,发布了内存型实例re7p和性能增强型本地盘实例i4p。
内存型实例re7p,较上一代性能提升了30%,同时可以支持1:20的超大内存容量配比,使得Redis、参数服务器性能比提升50%以上。性能增强型本地盘实例i4p,则是全球首个基于持久内存技术的本盘增强型实例,读写延时低至170纳秒,达到准内存级别的访问性能,RocksDB、ClickHouse场景性能提升2-3倍。
当前,大内存解决方案创新企业Memverge通过阿里云提供的持久内存实例,在生物基因、金融、芯片设计等方面实现创新的服务,真正做到内存更大、成本更低和效率更高。比如在生物科学领域,基于阿里云的持久内存实例,单细胞的基因测序总体的任务训练效率提升了20倍。
03 强大的异构计算产品家族助力多元化创新
2017年,阿里云弹性计算在国内首家引入了GPU云服务器,如今整个AI深度学习的参数已经从过去的百万级发展到千万、亿、十亿、万亿级别,用户需求的变化不断推动着阿里云构建更大、更强的云上训练集群以提供对应的算力挑战。除此之外,元宇宙、数字孪生、云游戏等场景,也推动了阿里云不断完善异构计算产品的布局。
经过5年的发展,阿里云异构计算产品布局了面向人工智能、视觉计算和定制计算的全系产品家族,更重要的是我们还在实例之上,构建了一系列的软件产品,包括AI加速引擎AIACC和部署工具等,帮助客户降低使用门槛,提升效率,从而使得在云上拥有更高的性价比。
2019年初,阿里云作为国内首家在云端打造异构超算实例的云服务商,帮助自动驾驶、自然语言处理的用户将整体集群训练降低为分钟级。今天,阿里云再次升级,推出了基于800G RDMA网络的GPU超算实例,打造了云上最强算力和最强网络能力,并基于我们所提供的AIACC加速工具,使得AI深度模型训练效率最大提升9.75倍,帮助客户轻松应对万亿级巨量模型挑战。
阿里云第七代GPU实例gn7i实现全面商业化,在面向云游戏、元宇宙等场景时可以构建高效的串流能力、支持RGC协议,客户可以开箱即用、轻松获得强劲的云端算力。相比上一代产品,在AI的推理场景中,性价比提升130%;在图形图像场景中,性能提升2倍以上。
红星美凯龙设计云SaaS平台,为了实现逼真的家具设计效果图,其实时光线追踪的需要对云端算力提到了极高的要求,借助阿里云第七代GPU实例gn7i的强劲算力,实现了准实时渲染,最终效果图的渲染低至十分钟级别,且满足业务灵活弹性的诉求。
此外,阿里云在定制计算领域还发布了新一代FPGA云服务器实例f5,较上一代性价比提升100%,并通过镜像的安全保护机制实现IP的强保护。基于FPGA实例,雪湖科技和阿里云携手发布了MD分子动力学FPGA加速方案,相较于业界主流的其他方案,整体性能方面提升了数十倍,性价比提升了400%,助力新药的研发和新材料的研制。
如今,阿里云弹性计算产品,从最开始的一两款产品发展到现在面向客户的数百种业务场景的数十款产品家族,为客户提供一个更具性价比的选择。
04 公共云不断向外延伸,满足更多场景与需求
随着越来越多的客户对公共云产品和能力的认可,部分企业上云的过程中遭遇了新的挑战,比如由于行业属性或业务场景等原因,要求数据本地化,这使得阿里云的公共云产品不断向外延伸、向客户靠近;同时,5G、物联网等低延时数据处理场景都促使阿里云不断地思考产品布局,并于2021年上半年发布了“一云多态”战略,包括智能全托管、本地Region、云盒等产品,以满足客户算力的全位置覆盖的需求。
云上大客户专属的智能全托管产品,主要基于大型客户的需求,在阿里云公共云的可用区里打造一个全新的智能全托管专区,生产和公共云一致的产品,包括运维能力和OpenAPI接口,很好地帮助客户解决使用和运维的问题。同时,客户可以享受到阿里云公共云超高的稳定性,整体服务的SLA也得到保证,使得客户在享受公共云同时加快业务创新。
阿里云云盒,是客户本地专属的公共云产品,部署在客户IDC的机房,输出阿里云公共云的计算、存储、网络、安全、数据库等多种主流产品,同样提供了阿里云公共云一致的体验和使用方式,同时低建设门槛的优点也大大解决了企业IT云化转型过程中最后一公里的问题。阿里云云盒今年已经全面商业化,现已开服4个地域,9款产品,未来云盒将向更多的地域开放。
针对数据资产驻留的问题,阿里云提供了本地Region,它可以更好地满足客户数据本地化的诉求,当前在国内南京已经开服,支持5大类产品,40多款小产品。
05 弹性计算产品创新总结
阿里云弹性计算不仅仅是实例,已面向多维度不断创新,在客户和合作伙伴的帮助下,阿里云弹性计算团队不断创新产品、不断完善产品布局,为客户打造一个强劲可靠、无处不在的云,真正地实现为客户的创新保驾护航。
点击大会官网,观看王志坤在弹性计算年度峰会的精彩演讲视频。