当CPU成为计算单元之一

简介:

曾经在21世纪前期大放异彩的CPU多核并行解决方案在今天已经成了提升系统性能的瓶颈,新型智能卸载互连技术会是新的救星?

高性能计算发展至今 以CPU为核心的设计架构已成为瓶颈

过去15至20年,高性能计算的发展历经了一些重要的变革阶段。首先是从最初的SMP这样的小型机到集群系统的演变。2000年左右,计算机集群能够通过更多的通用服务器去扩展,满足性能的需求,而此时,集群式通讯像MPI这样的方式就起到了重要的连接作用。

第二个阶段是CPU由单核向多核的设计模式转变。大概在2008年到2010年,单核心CPU的主频已经上升到了一个瓶颈,而采用并行的多核心CPU,让处理器能够同时执行多个进程,有效的提升了系统性能。

但这种增加CPU核心数量的模式却同时增加了互联系统的负担,也让网络互连成为系统性能的瓶颈。但其实,与通信模式相比,互连延迟的改进所能带来的影响也是杯水车薪。目前,InfiniBand交换机的普遍延迟为90纳秒,InfiniBand适配器的延迟是100纳秒,而CPU处理的通信框架,比如MPI,它的延迟在几十微秒范围内(1微秒=1000纳秒)。这种不同数量级的通信延迟差距,让我们意识到,在互连系统延迟方面所做的工作已经价值不大。

面临并没有实际提升的单应用性能,多核模式也无法向上扩展,以CPU为核心的设计模式遭遇瓶颈。当前阶段,HPC市场正在历经新一轮的技术转型。

接下来 由多核转向协处理?

在当前数据爆炸的时代,数据处理也要求更快更实时,按照传统的方式,CPU需要等待数据传输,也就是数据传输和数据处理无法并行的“终极问题”,两年前,有人提出让数据更加靠近CPU,从而加快计算速度。然而这在当前大规模分布式数据存储的今天看来,仍然不可行。那么由此就产生了分散设计的概念,让网络成为协同处理单元,承担一部分计算任务,数据不需要移动到CPU才能计算,在移动到协处理器,分散的网络节点就能够执行计算。从简单的以CPU为核心的计算到CPU只作为计算单元之一,这种协同设计的思路的确让人重燃希望。但也存在一些质疑,网络节点作为协处理器,它能承载的计算负荷将实现何种比例的性能转化?而同时作为计算处理单元,势必会影响到网络节点本身的交换传输速率?软件的设计真的能够解决硬件无法突破的性能瓶颈吗?作为一种革新的设计理念,是否能够在当前的市场上获得认可并得以推广……

作为co-design的倡导者,Mellanox在最近发布的智能交换机Switch-IB 2当中展示了实践成果。除了具备最快的90ns的延迟和丰富交换机特性之外,Switch-IB 2智能交换机的意义还在于它将原来在高性能计算里用得最多的MPI的操作,由CPU转移到交换机来完成。Mellanox公司全球市场部副总裁Gilad Shainer表示:“这是在协同设计里面非常重要的一步,也是第一步,把集群的通讯移到交换机里去完成,通过这一步我们可以提高10倍的应用程序的性能。”据了解,这种智能卸载技术未来将扩展到更多的AI、DeepLearning场景,除了在高性能计算领域,在更多的这种密集传输的场景下,智能的连接解决方案将大有可为。
本文转自d1net(转载)

相关文章
|
人工智能 并行计算 PyTorch
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
605 0
|
缓存 测试技术 数据中心
【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标
【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标
680 0
|
算法 编译器
【计算机架构】响应时间和吞吐量 | 相对性能 | 计算 CPU 时间 | 指令技术与 CPI | T=CC/CR, CC=IC*CPI
【计算机架构】响应时间和吞吐量 | 相对性能 | 计算 CPU 时间 | 指令技术与 CPI | T=CC/CR, CC=IC*CPI
1552 1
|
8天前
|
存储 弹性计算 网络协议
阿里云服务器ECS实例规格族详细介绍:计算型c9i、经济型e和通用算力u1实例CPU参数说明
阿里云ECS实例规格族包括计算型c9i、经济型e和通用算力型u1等,各自针对不同场景优化。不同规格族在CPU型号、主频、网络性能、云盘IOPS等方面存在差异,即使CPU内存相同,性能和价格也不同。
52 0
|
C++
C++ 根据程序运行的时间和cpu频率来计算在另外的cpu上运行所花的时间
C++ 根据程序运行的时间和cpu频率来计算在另外的cpu上运行所花的时间
120 0
|
9月前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
10月前
|
人工智能 缓存 并行计算
【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,解释了算力计算方法、数据加载与计算的平衡点,以及如何通过算力敏感度分析优化性能瓶颈。同时,文章还讨论了服务器、GPU和超级计算机等不同计算平台的性能发展趋势,强调了优化数据传输速率和加载策略的重要性。
379 4
|
10月前
|
缓存 人工智能 算法
【AI系统】CPU 计算时延
CPU(中央处理器)是计算机系统的核心,其计算时延(从指令发出到完成所需时间)对系统性能至关重要。本文探讨了CPU计算时延的组成,包括指令提取、解码、执行、存储器访问及写回时延,以及影响时延的因素,如时钟频率、流水线技术、并行处理、缓存命中率和内存带宽。通过优化这些方面,可以有效降低计算时延,提升系统性能。文中还通过具体示例解析了时延产生的原因,强调了内存时延对计算速度的关键影响。
172 0
|
12月前
|
KVM 虚拟化
计算虚拟化之CPU——qemu解析
【9月更文挑战10天】本文介绍了QEMU命令行参数的解析过程及其在KVM虚拟化中的应用。展示了QEMU通过多个`qemu_add_opts`函数调用处理不同类型设备和配置选项的方式,并附上了OpenStack生成的一个复杂KVM参数实例。
|
算法 Windows
CAE如何基于CPU最佳核数和token等计算成本
【8月更文挑战第26天】在使用CAE(计算机辅助工程)进行分析计算时,需综合考虑CPU核数和token对成本的影响。CPU核数越多,虽能加速计算,但过多核数会因通信开销和内存带宽限制导致性能提升放缓。成本计算需考虑硬件租赁或购买费用及云服务收费标准。Token作为软件许可,需分摊到每次计算中。通过测试优化找到性能与成本的平衡点,实现最低成本下的高效计算。
232 1