硬件飞速发展,容量越来越大,速度越来越快。在存储领域,单盘的容量由过去的百GB,演变到今天的数十TB。介质的延迟由毫秒级别到现在的微秒,再到纳秒级别。网络由过去的10G发展到今天的25G、100G,及未来演进到400G。
在计算领域,随着人工智能的兴起,AI的广泛应用,计算能力也在成倍提升。然而随着硬件的高速发展,软件的发展也需急速提升性能。服务器作为基础设施的核心载体,是承载阿里巴巴业务重要基石之一,也是软硬件一体化的集成体和创新体。如何将新技术快速应用于业务中,让业务提前享受技术红利?如何充分挖掘硬件资源潜力,使业务实现极致性能与极致可靠性,这些都是软硬件一体化迫在眉睫要解决的问题。
2018年杭州云栖大会,在软硬件一体化专场,阿里巴巴研究员和多位资深技术专家分享了阿里巴巴在软硬件一体化领域的创新和工程实践。特别邀请美国佛罗里达大学教授、IEEE Fellow、智能计算机体系结构设计实验室主任李涛博士,分享《计算机体系结构设计挑战和机遇》。特别邀请上海交通大学副教授蒋力博士,分享《人工智能给硬件可靠性带来的挑战和机遇》。
—1—软硬件一体化在云计算中的重要性和价值
阿里巴巴 研究员 马涛
硬件让软件有了各种的可能性,同时软件本身也具有创造力。通过把软件放在硬件里面,既提供了软件各种各样的灵活性,同时又将硬件发挥到极致。最终达到软硬一体化协同的最佳效果,让阿里云产品在市场上具有充分的竞争力。
软硬一体化是阿里云未来的核心竞争力。阿里从过去到现在市场上取得领先性,但在未来五年,如果阿里云要在市场上继续保持领先,软硬一体化一定是非常重要的因素。阿里云的客户更多的了解软硬一体化对产品的重要性,也对阿里云产品更有信心。
—2—近数据计算存储的软硬件一体化
阿里巴巴 高级技术专家 杜宇
FusionEngine是全球首个规模商用用户态软硬一体化存储引擎,是阿里巴巴基础设施针对大规模数据中心的应用特征,为双十一等业务场景打造的极致性能存储引擎。
FusionEngine通过全用户态IO栈和用户态文件系统充分挖掘SSD硬件潜力,引入用户态设备管理器和基于SSD性能模型的IO调度器等一系列创新设计,有效支撑盘古2.0分布式存储在阿里云大规模上线,实现块存储产品ESSD百万IOPS的极致性能,IOPS性能提升50%,ESSD性能提升5倍。在阿里云Redis on Flash产品上,Fusion Engine作为后端存储引擎,相比全内存方案,产品性价比提升逾20倍。在X-DB业务上,通过Fusion Engine + Storage Class Memory的方案,CPU利用率降低到1/4,远程存储读延迟降低到1/5。
目前,阿里巴巴Fusion Engine已经演进到2.0版本。全面使能Storage Class Memory,AliFlash,QLC SSD,SMR和AliFPGA等新型存储介质和存储计算加速硬件。提供基于追加写模型的AliFlash V3 ObjectStore,智能异构计算加速USSCA,冷存储GlacierStore,成本性能优化的分层存储TierStore,和高性能软硬一体键值存储USSKV等一系列存储引擎方案,实现端到端的性能优化和成本优化。
—3—人工智能时代体系架构的机遇和挑战
美国佛罗里达大学 教授 李涛
随着大数据、物联网信息系统的融合,给人工智能带来了哪些挑战?人们将会面对3个A,第一个A(Anywhere),无处不在,为了解决这个问题,必须把AI改成泛在的AI,无处不在。第二个A(Adaptive),要有自适应性,不断变换场景,模型适应不断变换的数据。第三个A(Autonomous),将来的机器学习一定是自动化的,不要大量人的参与。这三个A,就是人工智能2.0时代。
未来,AI在云端需要实现低延迟、高并发,怎样像GPU一样,能够实现高通量的处理,这是非常大的挑战。通过新技术,可以利用网络的稀疏性,做并发处理单元的数据流,做互联方式的探索。对于整个AI,生态系统至关重要。底层有TPU、GPU、NPU等多种硬件,怎样去构建生态系统?越来越多的应用部署在数据中心里面,越来越多异构处理器被采用,资源怎么去分配?能不能提供一个用户不会感知底层非常复杂的处理器架构?
新兴的人工智能技术对传统的技术架构有很多的挑战,希望新的挑战能够对架构设计带来更多的机遇。
—4—数据中心的近网络计算加速
阿里巴巴 资深技术专家 蒋晓维
摩尔定律在过去的几十年里是推动计算发展的主要因素。不论是从最初频率的增长还是后期核数的增加都使得CPU的性能不断的提升。随着计算进入了后摩尔定律的时代,摩尔定律所带来的计算性能增长的天然红利已日趋减少,逐渐枯竭。这意味着我们越来越依赖于架构上的创新来满足持续增长的计算力需求。对于计算的两大领域,通用计算和异构计算来说,架构创新都是依赖于对各自负载的深度理解。这就需要有完善的数据中心负载Tracing和Profiling技术,以及深入的架构定制化能力。
在近网络计算方面,阿里巴巴对数据中心和云计算中的容器和虚拟化网络等诸多业务场景进行硬件卸载和加速。通过从平台软件/算法层、软硬件结合抽象层、硬件载体层等几个角度进行协同设计和优化,并通过深入的架构优化设计,实现了从支持普通网卡特性到支持数据通路卸载、支持虚拟网络交换加速等功能,并获得了网络转发性能的成倍提升、以及端到端的网络延迟的显著降低。
—5—服务器硬件AI
阿里巴巴 资深技术专家 陈义全
在云计算大背景下,所有业务都运行在服务器上,服务器作为重要的基础设施,在云计算中的作用尤为重要。什么是好的服务器?有三个重要方面:一是极致可靠性,二是极致性能,三是极致的性价比。
为了提供好的服务器,阿里巴巴提出了服务器硬件AI,包括可靠性感知、性能感知、能耗感知、运维智能化四个方面。可靠性感知,目标是x86的成本,小型机可靠性。包括几个关键技术:故障隔离、故障预测、RAS+等,最终实现业务的极致可靠。
性能感知,要实现业务的极致性能。关键技术有:性能优化、性能画像、性能诊断等。
能耗感知,怎样从服务器到IDC到业务,实现三方联动极致节能。
运维智能化,如何将孤立系统连接,实现数据流动,从低效向智能化转变。
服务器硬件AI从数据化开始,将能耗数据、可靠性数据、性能数据全部形成数据中台,然后智能化分析,逐渐形成平台化。我们开发出了服务健康管理系统、灵镜性能诊断系统、能耗优化系统、巡洋舰智能运维系统。同时将人工智能算法运用到各个系统中,最终实现了极致可靠、极致性能、极致节能,最终达到极致性价比。
—6—人工智能给硬件可靠性带来的机遇与挑战
上海交通大学 副教授 蒋力
硬件的可靠性要求日益紧迫。因为硬件电子系统本身的复杂性,如芯片会集成到一些单板上,甚至可能成百的芯片,成千的电路,有很多单板集成到服务器系统上。与此同时,一些故障、一些缺陷也可能会被集成到系统里。很多问题是没有办法在产品使用之前发现,如果硬件引起宕机,可能带来多严重的问题,而人工智能是解决这些问题的一种好途径。
人工智能技术对硬件系统带来了很多机遇,但是当真正要用这个系统的时候,会发现有很多各种各样的挑战,包括一些数据特征的缺失、样本的不平衡。样本本身在时间序列、空间序列上的一些表达问题,以及维度过高的一些问题。上海交大经过半年努力做了一些尝试,取得了一些进展。将来会在如何把深度学习这种方法应用到异常检测,提高系统可靠性这方面做更深入的探索和尝试。
通过软硬件一体化,充分享受技术红利,提升业务竞争力,我们会持续创新和实践,分享更多关于软硬件一体化的思考、创新成果和工程实践。
欢迎加入我们:
基础设施事业群-服务器测试和数据化专家招聘
服务器研发事业部-软硬件系统调优和创新专家招聘
加入我们请扫码