如何利用软硬深度结合优化云硬件

简介: 本文PPT来自阿里巴巴基础架构事业群架构师希有于10月16日在2016年杭州云栖大会上发表的《软硬深度结合的云硬件优化实践》。

本文PPT来自阿里巴巴基础架构事业群架构师希有于10月16日在2016年杭州云栖大会上发表的《软硬深度结合的云硬件优化实践》。

随着金融、物流、电商、云计算和媒体这五大平台的迅猛发展,全业务在大规模、高效率、质量、软硬结合和技术驱动这五个方面对基础设施提出了挑战。其中在云计算和大数据环境下如何实现软硬结合引发了众多工程师们的思考和实践。

软硬结合实践主要涉及定制处理器、定制SSD、高密度存储和服务器四个方面。在定制处理器方面,由于受到了来自X86计算领域的挑战,包括摩尔定律和日趋同质化官版处理器,我们在实践中采用了高频高核心的Alicpu Xeon E5 v4,并且同步Intel的官方发布将其大规模投入使用。为评估性能,我们结合阿里业务多样性的综合性能评估体系创新定义了一些评价指标,进而搭建了Alibench,通过测试,我们发现这种策略使得Performance/Watt得到了较大的提高。在定制SSD方面,我们使用了阿里自研的固态盘,这样不仅使我们自主掌握了核心技术和设计,而且还将软硬件打通,提升了应用表现。在高密度存储方面,我们深度结合云存储场景,采取高度化+模块化+一体式Alirack的方式,并且未来我们在高性能fabric和资源池化等方向将不断探索。在最重要的服务器方面我们采用了定制的Aliserver,通过采取Purley+惠普场景深度定制+CRB共建模式,实现了自主可控,并且在规格竞争力领先业界。

展望未来,便捷高效的基础设施服务化是重点方向,其中主要涉及计算存储分离架构、计算众核化Soc化和异构化等等。随着云计算竞争日益激烈,云计算将对全链路整体把控综合竞争力提出更高的要求,如何利用软硬结合来优化云硬件还有更多的路要走。

324a9ad03fffe8f0e13a4214adad24276138592e

9a7873e132d3b4820859c1d7699d6be61b5e3e03

a18a71416868b2ef6dfa19f048dade5b1994f3a2

7146be71f94fd99c6a6e14a11ce334028baf1ffd

d98fe97c417c9fccbee5c4870a6d25b0e4ea35c0

dd410acaa70f178e5c4cac407acfe37e2442e158

01d620945600567071cc42ef65c1a8ac783ca414

51eb40780f501644cc1bf45d892b532b410b95bf

84d59b636f88ad15492a1182ec6e8bc0f6467fbf

fb53b9404e620761eba6c4fdaee7f18f8ac3dd76

cfa1c734f81bb3cebf3be582f1b69da0b5d0ce52

06cdca85b3633ea089aa492e6008de69049ec641

4e5d55f2a74254fcac82629981f664804ae6bd7a

9536bb9ae3ca32191ea7d52fb7c01d1c44473210

d68f2d71afe583a944dae99448214793c6377d00


相关文章
|
9月前
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
136467 6
|
1月前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
3月前
|
存储 边缘计算 安全
深入解析边缘计算:架构、优势与挑战
深入解析边缘计算:架构、优势与挑战
157 0
|
6月前
|
安全 网络安全 网络虚拟化
优化大型企业网络架构:从核心到边缘的全面升级
大型企业在业务运作中涉及多种数据传输,涵盖办公应用、CRM/ERP系统、数据中心、云环境、物联网及安全合规等多个方面。其复杂的业务生态和全球布局要求网络架构具备高效、安全和可靠的特性。网络设计需全面考虑核心层、汇聚层和接入层的功能与冗余,同时实现内外部的有效连接,包括广域网连接、远程访问策略、云计算集成及多层次安全防护,以构建高效且可扩展的网络生态系统。
优化大型企业网络架构:从核心到边缘的全面升级
|
9月前
|
监控 安全 物联网
相比4G,5G有那些优势满足工业4.0的技术需求
5G凭借其超高速率、超低延迟、高可靠性、大连接数等核心技术优势,有力满足了工业4.0对于实时通信、灵活生产、高效自动化及大规模物联网应用的需求。
205 0
|
人工智能 Serverless 程序员
阿里云张建锋谈新型计算体系:云正在重构硬件、软件和终端世界
阿里巴巴宣布自研CPU倚天710已大规模应用,阿里云未来两年20%的新增算力将使用自研CPU,并以云的形式服务阿里巴巴和多家互联网科技公司,算力性价比提升超30%,单位算力功耗降低60%,这是中国首个云上大规模应用的自研CPU,它将对IT硬件体系、软件研发范式和终端世界带来深刻变革。
83649 5
阿里云张建锋谈新型计算体系:云正在重构硬件、软件和终端世界
|
存储 编解码 网络架构
《边缘云技术演进与发展白皮书》——三、边缘云节点硬件基础设施 技术演进——01 边缘云硬件初期阶段:无定制化
《边缘云技术演进与发展白皮书》——三、边缘云节点硬件基础设施 技术演进——01 边缘云硬件初期阶段:无定制化
196 0
|
存储 机器学习/深度学习 人工智能
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
ISSCC 2022 | 兼顾能效、精度和灵活性,可重构数字存算一体架构打开高算力AI芯片新范式
846 0
|
存储 弹性计算 运维
灵活、安全、高性能:阿里云专家带你了解芯片设计上云之路
基于E-HPC的强大兼容能力,提供多种混合云架构
灵活、安全、高性能:阿里云专家带你了解芯片设计上云之路
|
存储 算法 网络协议
磐久网络 | 阿里云首次揭秘自研可编程网络核心技术和应用场景
阿里云首次揭秘自研可编程网络核心技术和应用场景
磐久网络 | 阿里云首次揭秘自研可编程网络核心技术和应用场景