阿里巴巴软硬件一体化创新和工程实践

简介: 硬件飞速发展,容量越来越大,速度越来越快。在存储领域,单盘的容量由过去的百GB,演变到今天的数十TB。介质的延迟由毫秒级别到现在的微秒,再到纳秒级别。网络由过去的10G发展到今天的25G、100G,及未来演进到400G。

硬件飞速发展,容量越来越大,速度越来越快。在存储领域,单盘的容量由过去的百GB,演变到今天的数十TB。介质的延迟由毫秒级别到现在的微秒,再到纳秒级别。网络由过去的10G发展到今天的25G、100G,及未来演进到400G。

在计算领域,随着人工智能的兴起,AI的广泛应用,计算能力也在成倍提升。然而随着硬件的高速发展,软件的发展也需急速提升性能。服务器作为基础设施的核心载体,是承载阿里巴巴业务重要基石之一,也是软硬件一体化的集成体和创新体。如何将新技术快速应用于业务中,让业务提前享受技术红利?如何充分挖掘硬件资源潜力,使业务实现极致性能与极致可靠性,这些都是软硬件一体化迫在眉睫要解决的问题。

2018年杭州云栖大会,在软硬件一体化专场,阿里巴巴研究员和多位资深技术专家分享了阿里巴巴在软硬件一体化领域的创新和工程实践。特别邀请美国佛罗里达大学教授、IEEE Fellow、智能计算机体系结构设计实验室主任李涛博士,分享《计算机体系结构设计挑战和机遇》。特别邀请上海交通大学副教授蒋力博士,分享《人工智能给硬件可靠性带来的挑战和机遇》。

—1—软硬件一体化在云计算中的重要性和价值

阿里巴巴 研究员 马涛

硬件让软件有了各种的可能性,同时软件本身也具有创造力。通过把软件放在硬件里面,既提供了软件各种各样的灵活性,同时又将硬件发挥到极致。最终达到软硬一体化协同的最佳效果,让阿里云产品在市场上具有充分的竞争力。

image.png

软硬一体化是阿里云未来的核心竞争力。阿里从过去到现在市场上取得领先性,但在未来五年,如果阿里云要在市场上继续保持领先,软硬一体化一定是非常重要的因素。阿里云的客户更多的了解软硬一体化对产品的重要性,也对阿里云产品更有信心。

—2—近数据计算存储的软硬件一体化

阿里巴巴 高级技术专家 杜宇

FusionEngine是全球首个规模商用用户态软硬一体化存储引擎,是阿里巴巴基础设施针对大规模数据中心的应用特征,为双十一等业务场景打造的极致性能存储引擎。

FusionEngine通过全用户态IO栈和用户态文件系统充分挖掘SSD硬件潜力,引入用户态设备管理器和基于SSD性能模型的IO调度器等一系列创新设计,有效支撑盘古2.0分布式存储在阿里云大规模上线,实现块存储产品ESSD百万IOPS的极致性能,IOPS性能提升50%,ESSD性能提升5倍。在阿里云Redis on Flash产品上,Fusion Engine作为后端存储引擎,相比全内存方案,产品性价比提升逾20倍。在X-DB业务上,通过Fusion Engine + Storage Class Memory的方案,CPU利用率降低到1/4,远程存储读延迟降低到1/5。

image.png

目前,阿里巴巴Fusion Engine已经演进到2.0版本。全面使能Storage Class Memory,AliFlash,QLC SSD,SMR和AliFPGA等新型存储介质和存储计算加速硬件。提供基于追加写模型的AliFlash V3 ObjectStore,智能异构计算加速USSCA,冷存储GlacierStore,成本性能优化的分层存储TierStore,和高性能软硬一体键值存储USSKV等一系列存储引擎方案,实现端到端的性能优化和成本优化。

—3—人工智能时代体系架构的机遇和挑战

美国佛罗里达大学 教授 李涛

随着大数据、物联网信息系统的融合,给人工智能带来了哪些挑战?人们将会面对3个A,第一个A(Anywhere),无处不在,为了解决这个问题,必须把AI改成泛在的AI,无处不在。第二个A(Adaptive),要有自适应性,不断变换场景,模型适应不断变换的数据。第三个A(Autonomous),将来的机器学习一定是自动化的,不要大量人的参与。这三个A,就是人工智能2.0时代。

image.png

未来,AI在云端需要实现低延迟、高并发,怎样像GPU一样,能够实现高通量的处理,这是非常大的挑战。通过新技术,可以利用网络的稀疏性,做并发处理单元的数据流,做互联方式的探索。对于整个AI,生态系统至关重要。底层有TPU、GPU、NPU等多种硬件,怎样去构建生态系统?越来越多的应用部署在数据中心里面,越来越多异构处理器被采用,资源怎么去分配?能不能提供一个用户不会感知底层非常复杂的处理器架构?

新兴的人工智能技术对传统的技术架构有很多的挑战,希望新的挑战能够对架构设计带来更多的机遇。

—4—数据中心的近网络计算加速

阿里巴巴 资深技术专家 蒋晓维

摩尔定律在过去的几十年里是推动计算发展的主要因素。不论是从最初频率的增长还是后期核数的增加都使得CPU的性能不断的提升。随着计算进入了后摩尔定律的时代,摩尔定律所带来的计算性能增长的天然红利已日趋减少,逐渐枯竭。这意味着我们越来越依赖于架构上的创新来满足持续增长的计算力需求。对于计算的两大领域,通用计算和异构计算来说,架构创新都是依赖于对各自负载的深度理解。这就需要有完善的数据中心负载Tracing和Profiling技术,以及深入的架构定制化能力。

image.png

在近网络计算方面,阿里巴巴对数据中心和云计算中的容器和虚拟化网络等诸多业务场景进行硬件卸载和加速。通过从平台软件/算法层、软硬件结合抽象层、硬件载体层等几个角度进行协同设计和优化,并通过深入的架构优化设计,实现了从支持普通网卡特性到支持数据通路卸载、支持虚拟网络交换加速等功能,并获得了网络转发性能的成倍提升、以及端到端的网络延迟的显著降低。

—5—服务器硬件AI

阿里巴巴 资深技术专家 陈义全

在云计算大背景下,所有业务都运行在服务器上,服务器作为重要的基础设施,在云计算中的作用尤为重要。什么是好的服务器?有三个重要方面:一是极致可靠性,二是极致性能,三是极致的性价比。

为了提供好的服务器,阿里巴巴提出了服务器硬件AI,包括可靠性感知、性能感知、能耗感知、运维智能化四个方面。可靠性感知,目标是x86的成本,小型机可靠性。包括几个关键技术:故障隔离、故障预测、RAS+等,最终实现业务的极致可靠。

性能感知,要实现业务的极致性能。关键技术有:性能优化、性能画像、性能诊断等。

能耗感知,怎样从服务器到IDC到业务,实现三方联动极致节能。

运维智能化,如何将孤立系统连接,实现数据流动,从低效向智能化转变。

image.png

服务器硬件AI从数据化开始,将能耗数据、可靠性数据、性能数据全部形成数据中台,然后智能化分析,逐渐形成平台化。我们开发出了服务健康管理系统、灵镜性能诊断系统、能耗优化系统、巡洋舰智能运维系统。同时将人工智能算法运用到各个系统中,最终实现了极致可靠、极致性能、极致节能,最终达到极致性价比。

—6—人工智能给硬件可靠性带来的机遇与挑战

上海交通大学 副教授 蒋力

硬件的可靠性要求日益紧迫。因为硬件电子系统本身的复杂性,如芯片会集成到一些单板上,甚至可能成百的芯片,成千的电路,有很多单板集成到服务器系统上。与此同时,一些故障、一些缺陷也可能会被集成到系统里。很多问题是没有办法在产品使用之前发现,如果硬件引起宕机,可能带来多严重的问题,而人工智能是解决这些问题的一种好途径。

image.png

人工智能技术对硬件系统带来了很多机遇,但是当真正要用这个系统的时候,会发现有很多各种各样的挑战,包括一些数据特征的缺失、样本的不平衡。样本本身在时间序列、空间序列上的一些表达问题,以及维度过高的一些问题。上海交大经过半年努力做了一些尝试,取得了一些进展。将来会在如何把深度学习这种方法应用到异常检测,提高系统可靠性这方面做更深入的探索和尝试。

通过软硬件一体化,充分享受技术红利,提升业务竞争力,我们会持续创新和实践,分享更多关于软硬件一体化的思考、创新成果和工程实践。

欢迎加入我们:

基础设施事业群-服务器测试和数据化专家招聘

服务器研发事业部-软硬件系统调优和创新专家招聘

加入我们请扫码

目录
相关文章
|
4月前
|
运维 Devops 中间件
核心系统转型问题之核心应用技术平台搭建包括什么
核心系统转型问题之核心应用技术平台搭建包括什么
|
4月前
|
人工智能 Oracle 虚拟化
一云多芯,智能化转型的下一个工程化挑战
一云多芯,智能化转型的下一个工程化挑战
|
4月前
|
运维 Cloud Native 云计算
云原生技术:未来软件开发的风向标
【8月更文挑战第12天】 云原生技术,作为现代软件开发领域的一股清流,正逐渐改变着我们的开发模式和应用部署方式。本文将从云原生技术的定义、优势、应用场景以及实践方法等方面进行详细阐述,帮助读者更好地理解和掌握这一前沿技术。让我们一起揭开云原生技术的神秘面纱,探索其在软件开发领域的巨大潜力!
56 1
|
4月前
|
Cloud Native Devops 持续交付
探索云原生架构:未来企业技术演进的必由之路
随着数字化转型的浪潮席卷全球,企业正逐步将目光转向云原生架构,以期实现更高效、灵活且可扩展的IT服务。本文深入探讨了云原生的核心概念,包括容器化、微服务、持续集成与持续部署等,并阐述了这些技术如何共同促进现代企业的快速发展。同时,通过分析具体案例,展示了云原生在实际应用中带来的效益,以及企业在采纳云原生路径时可能面临的挑战和解决策略。
|
5月前
|
运维 Cloud Native Devops
云原生架构的演进与实践:面向未来的企业技术战略
在数字化转型的浪潮中,云原生架构已成为推动企业技术创新和业务敏捷性的核心力量。本文旨在深入探讨云原生架构的发展历程、关键技术组件以及在实际应用中的效益与挑战。通过分析来自全球不同行业的实证数据和案例研究,文章揭示云原生技术如何助力企业实现资源的高效利用、应用的快速迭代和系统的弹性扩展。同时,结合最新的研究成果和行业报告,为读者提供一套系统化的云原生采纳指南和战略规划建议,以期帮助企业构建面向未来的技术体系,并在激烈的市场竞争中保持领先地位。
86 0
|
运维 供应链 Cloud Native
技术风向标 | 云原生技术架构成熟度模型解读
7 月 18 日(周一)14:00 ,阿里云技术专家将做客直播间,为企业和开发者深度解读云原生技术架构成熟度模型,并介绍云原生架构安全水平,点击下方卡片,立即预约直播~
技术风向标 | 云原生技术架构成熟度模型解读
|
存储 供应链 安全
企业级区块链阶段性突破,新基建有了新“底座”
在过去的2019年,区块链获得了全社会的极大关注,大批企业和IT厂商都开始进入或开始研究区块链技术及其应用。继2018年的全球区块链泡沫后,2019年区块链创业潮大幅降温、公链大幅消退,但区块链技术本身却在企业级领域取得了实质性进展。
278 0
企业级区块链阶段性突破,新基建有了新“底座”
|
弹性计算 运维 分布式计算
刘伟光:全分布式架构引领核心系统架构转型新趋势
刘伟光:全分布式架构引领核心系统架构转型新趋势
刘伟光:全分布式架构引领核心系统架构转型新趋势
|
运维 Cloud Native 前端开发
云原生下研发支撑的新形态
随着技术的不断快速迭代,各种研发主体在领域上不断的涌现出来,企业对于高效低投的研发模式有着越来越强烈的诉求;面对复杂和趋于成熟的业务场景,各个业务主体之间越来越希望建立一种共生的机制加快业务协作创新;针对集团内的研发支撑发展情况、经验及结合业界的热点问题提出一种未来研发的新形态,同时针对模式的演进对于未来研发支撑体系架构做出自己的设想,希望对业界的开发者及企业研发支撑领域的同行带来新的思路及新的研发方法论。
云原生下研发支撑的新形态
|
运维 Kubernetes Cloud Native
云原生转型:规模化演进与文化思考
『大型组织如何进行 DevOps 的成熟度模型设计』时,便开始在思索,为什么 DevOps 是一种转型?敏捷也可以是一种转型?它们有着足够大的复杂度,需要改变一系列的组织文化,还有技术实践上的改变。所以,我尝试着继续去探索转型的领域。