阿里巴巴软硬件一体化创新和工程实践

简介: 硬件飞速发展,容量越来越大,速度越来越快。在存储领域,单盘的容量由过去的百GB,演变到今天的数十TB。介质的延迟由毫秒级别到现在的微秒,再到纳秒级别。网络由过去的10G发展到今天的25G、100G,及未来演进到400G。

硬件飞速发展,容量越来越大,速度越来越快。在存储领域,单盘的容量由过去的百GB,演变到今天的数十TB。介质的延迟由毫秒级别到现在的微秒,再到纳秒级别。网络由过去的10G发展到今天的25G、100G,及未来演进到400G。

在计算领域,随着人工智能的兴起,AI的广泛应用,计算能力也在成倍提升。然而随着硬件的高速发展,软件的发展也需急速提升性能。服务器作为基础设施的核心载体,是承载阿里巴巴业务重要基石之一,也是软硬件一体化的集成体和创新体。如何将新技术快速应用于业务中,让业务提前享受技术红利?如何充分挖掘硬件资源潜力,使业务实现极致性能与极致可靠性,这些都是软硬件一体化迫在眉睫要解决的问题。

2018年杭州云栖大会,在软硬件一体化专场,阿里巴巴研究员和多位资深技术专家分享了阿里巴巴在软硬件一体化领域的创新和工程实践。特别邀请美国佛罗里达大学教授、IEEE Fellow、智能计算机体系结构设计实验室主任李涛博士,分享《计算机体系结构设计挑战和机遇》。特别邀请上海交通大学副教授蒋力博士,分享《人工智能给硬件可靠性带来的挑战和机遇》。

—1—软硬件一体化在云计算中的重要性和价值

阿里巴巴 研究员 马涛

硬件让软件有了各种的可能性,同时软件本身也具有创造力。通过把软件放在硬件里面,既提供了软件各种各样的灵活性,同时又将硬件发挥到极致。最终达到软硬一体化协同的最佳效果,让阿里云产品在市场上具有充分的竞争力。

image.png

软硬一体化是阿里云未来的核心竞争力。阿里从过去到现在市场上取得领先性,但在未来五年,如果阿里云要在市场上继续保持领先,软硬一体化一定是非常重要的因素。阿里云的客户更多的了解软硬一体化对产品的重要性,也对阿里云产品更有信心。

—2—近数据计算存储的软硬件一体化

阿里巴巴 高级技术专家 杜宇

FusionEngine是全球首个规模商用用户态软硬一体化存储引擎,是阿里巴巴基础设施针对大规模数据中心的应用特征,为双十一等业务场景打造的极致性能存储引擎。

FusionEngine通过全用户态IO栈和用户态文件系统充分挖掘SSD硬件潜力,引入用户态设备管理器和基于SSD性能模型的IO调度器等一系列创新设计,有效支撑盘古2.0分布式存储在阿里云大规模上线,实现块存储产品ESSD百万IOPS的极致性能,IOPS性能提升50%,ESSD性能提升5倍。在阿里云Redis on Flash产品上,Fusion Engine作为后端存储引擎,相比全内存方案,产品性价比提升逾20倍。在X-DB业务上,通过Fusion Engine + Storage Class Memory的方案,CPU利用率降低到1/4,远程存储读延迟降低到1/5。

image.png

目前,阿里巴巴Fusion Engine已经演进到2.0版本。全面使能Storage Class Memory,AliFlash,QLC SSD,SMR和AliFPGA等新型存储介质和存储计算加速硬件。提供基于追加写模型的AliFlash V3 ObjectStore,智能异构计算加速USSCA,冷存储GlacierStore,成本性能优化的分层存储TierStore,和高性能软硬一体键值存储USSKV等一系列存储引擎方案,实现端到端的性能优化和成本优化。

—3—人工智能时代体系架构的机遇和挑战

美国佛罗里达大学 教授 李涛

随着大数据、物联网信息系统的融合,给人工智能带来了哪些挑战?人们将会面对3个A,第一个A(Anywhere),无处不在,为了解决这个问题,必须把AI改成泛在的AI,无处不在。第二个A(Adaptive),要有自适应性,不断变换场景,模型适应不断变换的数据。第三个A(Autonomous),将来的机器学习一定是自动化的,不要大量人的参与。这三个A,就是人工智能2.0时代。

image.png

未来,AI在云端需要实现低延迟、高并发,怎样像GPU一样,能够实现高通量的处理,这是非常大的挑战。通过新技术,可以利用网络的稀疏性,做并发处理单元的数据流,做互联方式的探索。对于整个AI,生态系统至关重要。底层有TPU、GPU、NPU等多种硬件,怎样去构建生态系统?越来越多的应用部署在数据中心里面,越来越多异构处理器被采用,资源怎么去分配?能不能提供一个用户不会感知底层非常复杂的处理器架构?

新兴的人工智能技术对传统的技术架构有很多的挑战,希望新的挑战能够对架构设计带来更多的机遇。

—4—数据中心的近网络计算加速

阿里巴巴 资深技术专家 蒋晓维

摩尔定律在过去的几十年里是推动计算发展的主要因素。不论是从最初频率的增长还是后期核数的增加都使得CPU的性能不断的提升。随着计算进入了后摩尔定律的时代,摩尔定律所带来的计算性能增长的天然红利已日趋减少,逐渐枯竭。这意味着我们越来越依赖于架构上的创新来满足持续增长的计算力需求。对于计算的两大领域,通用计算和异构计算来说,架构创新都是依赖于对各自负载的深度理解。这就需要有完善的数据中心负载Tracing和Profiling技术,以及深入的架构定制化能力。

image.png

在近网络计算方面,阿里巴巴对数据中心和云计算中的容器和虚拟化网络等诸多业务场景进行硬件卸载和加速。通过从平台软件/算法层、软硬件结合抽象层、硬件载体层等几个角度进行协同设计和优化,并通过深入的架构优化设计,实现了从支持普通网卡特性到支持数据通路卸载、支持虚拟网络交换加速等功能,并获得了网络转发性能的成倍提升、以及端到端的网络延迟的显著降低。

—5—服务器硬件AI

阿里巴巴 资深技术专家 陈义全

在云计算大背景下,所有业务都运行在服务器上,服务器作为重要的基础设施,在云计算中的作用尤为重要。什么是好的服务器?有三个重要方面:一是极致可靠性,二是极致性能,三是极致的性价比。

为了提供好的服务器,阿里巴巴提出了服务器硬件AI,包括可靠性感知、性能感知、能耗感知、运维智能化四个方面。可靠性感知,目标是x86的成本,小型机可靠性。包括几个关键技术:故障隔离、故障预测、RAS+等,最终实现业务的极致可靠。

性能感知,要实现业务的极致性能。关键技术有:性能优化、性能画像、性能诊断等。

能耗感知,怎样从服务器到IDC到业务,实现三方联动极致节能。

运维智能化,如何将孤立系统连接,实现数据流动,从低效向智能化转变。

image.png

服务器硬件AI从数据化开始,将能耗数据、可靠性数据、性能数据全部形成数据中台,然后智能化分析,逐渐形成平台化。我们开发出了服务健康管理系统、灵镜性能诊断系统、能耗优化系统、巡洋舰智能运维系统。同时将人工智能算法运用到各个系统中,最终实现了极致可靠、极致性能、极致节能,最终达到极致性价比。

—6—人工智能给硬件可靠性带来的机遇与挑战

上海交通大学 副教授 蒋力

硬件的可靠性要求日益紧迫。因为硬件电子系统本身的复杂性,如芯片会集成到一些单板上,甚至可能成百的芯片,成千的电路,有很多单板集成到服务器系统上。与此同时,一些故障、一些缺陷也可能会被集成到系统里。很多问题是没有办法在产品使用之前发现,如果硬件引起宕机,可能带来多严重的问题,而人工智能是解决这些问题的一种好途径。

image.png

人工智能技术对硬件系统带来了很多机遇,但是当真正要用这个系统的时候,会发现有很多各种各样的挑战,包括一些数据特征的缺失、样本的不平衡。样本本身在时间序列、空间序列上的一些表达问题,以及维度过高的一些问题。上海交大经过半年努力做了一些尝试,取得了一些进展。将来会在如何把深度学习这种方法应用到异常检测,提高系统可靠性这方面做更深入的探索和尝试。

通过软硬件一体化,充分享受技术红利,提升业务竞争力,我们会持续创新和实践,分享更多关于软硬件一体化的思考、创新成果和工程实践。

欢迎加入我们:

基础设施事业群-服务器测试和数据化专家招聘

服务器研发事业部-软硬件系统调优和创新专家招聘

加入我们请扫码

目录
相关文章
|
机器学习/深度学习 网络协议 异构计算
浅析GPU通信技术(下)-GPUDirect RDMA
目录 浅析GPU通信技术(上)-GPUDirect P2P 浅析GPU通信技术(中)-NVLink 浅析GPU通信技术(下)-GPUDirect RDMA 1. 背景         前两篇文章我们介绍的GPUDirect P2P和NVLink技术可以大大提升GPU服务器单机的GPU通信性...
28464 0
|
10月前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
监控 调度 开发工具
IO神器blktrace使用介绍
## 前言 1. blktrace的作者正是block io的maintainer,开发此工具,可以更好的追踪IO的过程。 2. blktrace 结合btt可以统计一个IO是在调度队列停留的时间长,还是在硬件上消耗的时间长,利用这个工具可以协助分析和优化问题。 ## blktrace的原理 一个I/O请求的处理过程,可以梳理为这样一张简单的图: ![](http://image
19888 0
|
前端开发 Go 网络安全
Go语言:xterm.js-websocket Web终端堡垒机
1.前言 因为公司业务需要在自己的私有云服务器上添加添加WebSsh终端,同时提供输入命令审计功能. 从google上可以了解到xterm.js是一个非常出色的web终端库,包括VSCode很多成熟的产品都使用这个前端库.
6979 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
1425 10
|
8月前
|
数据采集 机器学习/深度学习 数据挖掘
基于DeepSeek的多模态融合技术:实现图像、视频与音频的协同分析
随着多媒体数据的爆炸式增长,单一模态数据分析已无法满足复杂场景需求。多模态融合技术通过整合图像、视频、音频等多源数据,提供更全面精准的分析结果。DeepSeek作为强大的深度学习框架,在多模态融合领域展现巨大潜力。本文深入探讨基于DeepSeek的多模态融合技术,结合代码示例展示其在图像、视频与音频协同分析中的实际应用,涵盖数据预处理、特征融合、模型训练及评估等环节,并展望未来发展方向。
1530 13
|
人工智能 自然语言处理 供应链
阿里云联合伙伴发起“物流智能联盟”
物流行业内首个专注于大模型应用研究与实践的联盟“物流智能联盟”在杭州成立,旨在加速大模型在物流领域落地,用AI助力物流行业增效降本和业务创新。该联盟由阿里云、菜鸟、高德地图、中远海运、东航物流、圆通速递、申通快递、中通快递、德邦快递、G7易流、地上铁、浙江大学智能交通研究所等在2024数智物流峰会上共同成立。
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
网络协议 NoSQL API
深入理解 RDMA 的软硬件交互机制
本文深入分析了RDMA技术在数据中心高性能网络环境下的工作原理及软硬件交互机制,通过对比传统Kernel TCP,突出了RDMA在减少延迟、提高系统性能方面的优势,同时讨论了其在内存管理、软硬交互方面的关键技术和挑战,为读者提供了全面理解RDMA技术及其应用场景的视角。
|
存储 人工智能 编解码
在Data-Driven时代下,如何打造下一代智能数据体系?
本文源自2024外滩大会“Data+AI”论坛,由蚂蚁集团数据平台与服务部负责人骆骥演讲整理。文章回顾了数据技术发展历程,指出生成式AI正推动数据技术从成本效率中心向价值中心转变。
下一篇
开通oss服务