引言:随着云计算技术的发展,上云的企业越来越多,云计算的使用场景也越来越广泛、越来越深入。互联网初创企业从一开始就基于云计算平台设计自己的IT架构,传统企业也逐渐将业务迁移到云平台。云计算基础架构,随之受到了大众更多的关注。
近日,首届中国云计算基础架构开发者大会在长沙举行,阿里巴巴集团研究员、阿里云弹性计算负责人张献涛发表了主题为《云计算基础架构的实践和展望》的演讲,为现场观众和线上观众详细介绍了阿里云过去十年基础架构的演进和对公共云平台未来趋势的展望。
图:阿里巴巴集团研究员、阿里云弹性计算负责人张献涛
十年进化,重构计算
阿里云弹性计算的演进,其实就是整个开源基础技术架构的演进。过去十年,阿里云弹性计算基础架构经过三次架构大演进。早期,阿里云弹性计算采用的是Xen开源架构;2015年,随着ToB企业用户的逐渐增多,阿里云弹性计算进行了第一次的虚拟化架构升级,从Xen架构升级至全新的KVM架构,虚拟化损耗大幅降低;2017年,阿里云弹性计算虚拟化架构再次升级,升级至自研的神龙架构,虚拟化损耗更是降为0。
2020年,阿里云弹性计算的神龙架构演进至第三代,阿里云弹性计算基于该架构全新推出了第三代神龙云服务器产品家族,支持CPU、GPU、NPU、FPGA等多种计算形态,具备3分钟交付50万核vCPU的极速扩容能力,成为了云原生的最佳载体。
如今,阿里云弹性计算已覆盖互联网、金融、零售等行业在内的近300种场景,全球22个地域,63个大型的数据中心支撑各种流量高峰。如12306的春运抢票、微博热点暴涨流量以及钉钉2小时扩容10万台云服务器等。
公共云平台四大发展趋势
云平台用户规模的不断扩大,对阿里云弹性计算基础架构也提出了更多、更高的要求。我们认为,未来公共云平台将朝着更稳定、更安全、更高性能、更池化的四个方向演化。
1、更稳定:通用的服务器价格,小机的稳定性
稳定性对于用户来说至关重要,直接影响其业务的运行,而更稳定,也是公共云平台一致的追求。未来,云服务商无疑会在稳定性领域投入更多的资源。阿里云希望能够实现服务器的价格/成本、小机的稳定性。
当前,阿里云弹性计算团队在稳定性方面做了非常多的工作,在可托、可控、可防和可靠等四个领域持续不断投入,包括无损热迁移技术、硬件故障预测以及热升级等。未来,阿里云将继续加大投入,以实现平台的更稳定。
1) 可托:函数计算、Serverless PaaS等场景下,0成本获得更高的稳定性体验;
2) 可控:软件定义的故障发现、隔离、热升级能力;
3) 可防:精准预测,无损热迁移和基于客户体感的智能灰度体系;
4) 可靠:OS + 硬件 + 基础设施一体化的事前可靠性设计。
2、更安全:可信计算和加密计算打造新一代可信环境
可信计算是构建在零信任的基础上,即我就是对你不信任、但你也看不到我的数据。当前,仍有一些用户天然地认为公共云平台是不可信的。未来,当可信计算和加密计算被应用在公共云平台时,将构建新一代的可信环境,这时用户就可以放心地上云,因为公共云平台将无法看到用户数据。
未来两到三年,无论是在容器还是在虚拟机领域,可信计算都将会有较大的发展。
3、更高性能:后摩尔定律时代的云计算趋势
当前,新型硬件创新层出不穷,包括新的互联总线,FPGA、GPU等异构和高密度计算加速器,以及AEP内存、NVMe等。这些新型硬件将更多地为云计算平台赋能,为云计算平台带来更高的性能,这将是后摩尔定律时代的云计算趋势。
但如何能够在云服务器的设计、软件系统的设计等方面充分利用这些硬件,提升云平台的性能,将是底层基础设施架构技术人员面临的挑战。
4、更深池化:硬件池化实现机型的极致收敛和并池,打造硬核云原生服务器系统
计算池化、存储池化和网络池化是云计算基础架构领域的三个核心。GPU、FPGA、NPU等异构加速器在云计算中心越来越普及,但由于当前网络带宽和时延的限制,它们的池化规模仍然遇到很大的瓶颈, 各种规格的机型名目繁多,大大损害了资源的池化能力。内存的分配仍然限制在单台计算节点内,造成大量内存的碎片和浪费。
随着一些Gen-Z、 CXL等cache一致性总线和高速互联协议的出现,这些异构计算资源以及内存的大规模池化将成为可能。可以预测到未来3~5年内,随着GPU、FPGA、内存等计算资源的大规模池化,机型的数量将实现极致收敛,资源将实现极致并池,打造硬核的云原生计算和存储服务器系统,引领云计算基础设施的未来。最终带来成本的下降和整体服务能力的提升,从而大幅提升公共云平台的用户体验。
关注百晓生,笑谈云计算