从边缘到核心,PCIe Switch需要贵人相助!

简介:
  闪存市场上,NVMe发展速度可以用出乎意料来形容,总之普及速度超快。在我看来,原因也很简单,当SSD解决了磁盘低I/O 性能的问题,这个瓶颈消失后,iSCSI存储传输协议的瓶颈,特别是时延的问题就会凸显出来。从技术上,NVMe专门针对SSD的特点而设计,解决了存储传输协议,NVMe SSD成为服务器标准配置,这是时代的选择。

NVMe SSD也会带来新的问题,例如PCIe插槽的扩展问题,对此PCIe Switch会是顺理成章的事情。但让人完全预料不到的是:PCIe Switch的价值不限于此,它还有更核心更重要的定位。这也是“大话存储系列图书及同名公众号作者冬瓜哥在2017中国闪存峰会主题演讲所传递的信息。

采用传统的架构设计方式,CPU是核心,内存、SSD、 网卡以及GPU等通过CPU进行控制和调度,在这种模式下,数据首先要传递给CPU内存,GPU相关应用中,GPU要到CPU 内存来读取数据,在这个过程中 ,内存和网络访问就会成为瓶颈。冬瓜哥指出,CPU擅长逻辑控制,类似比特币挖矿这类的应用,主要依靠GPU的计算能力,数据经过CPU,有些多此一举。

有没有更加理想的模式呢?对此,冬瓜哥给出了如下架构模型。

新的模型以PCIe Switch为核心进行链接。CPU仍然担任逻辑控制和调度,但是数据传输透过PCIe Switch直接连接,其效率更高。

新设计模型的思想和网卡协议卸载、RDMA的思想有些类似,核心都是针对特殊的应用需求(例如存储),Bypass掉CPU、或者OS,缩短路径,提升效率。传统模型主要针对通用场景设计,针对特殊的场景,其应用效率不高。与之相比,新的模型显然更加具有竞争力。

从PCIe Switch担任核心效果看,成效显著。以GPU家督图像搜索应用为例,采用传统方式,数据读取速度为1.90GB/S,主机内存(CPU)相对使用率为5230;对比新的方式,速度为2.50GB/S,主机资源占用率仅为1。图像处理速度方面,传统方式为312.5像素点/秒,其主要瓶颈在主机内存;与之相比,新的模式为534.2像素点/秒,图像处理的速度完全取决于GPU的能力。

无独有偶。同样在2017中国闪存峰会上,启示录技术服务公司创始人张广彬在演讲中披露,Intel下一代处理器(skylake)会集成NVMe RAID 控制器(RSTE),未来IO路径更短,计算能力更强。因此,CPU会集成更多的功能,但与此同时,设备厂商也希望更多Bypass掉CPU。这是一场有关控制力的争夺。PCIe Switch要从边缘到核心,CPU将是其强大对手和阻力。

毫无疑问,但PCIe Switch的角色从边缘演变为核心,效果显而易见。PCIe Switch已经散发出王者气息,但要想成为真正的王者,PCIe Switch显然还有一段艰难旅程,谁会成为PCIe Switch真正的贵人呢?!还是静观其变吧!

 
 
 
作者:宋家雨
来源:51CTO
相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
6月前
|
前端开发 芯片
【芯片前端】基于DC综合的逻辑深度与cell count汇总:乘法器
【芯片前端】基于DC综合的逻辑深度与cell count汇总:乘法器
|
缓存 自动驾驶 物联网
C-RAN——无线接入网架构优化 | 带你读《5G时代的承载网》之十八
C-RAN 是根据现网条件和技术进步的趋势,提出的新型无线接入网构架, 是基于集中化处理(Centralized Processing)、协作式无线电(Collaborative Radio)和实时云计算构架(Real-time Cloud Infrastructure)的绿色无线接 入网构架(Clean System)。其本质是通过实现减少基站机房数量,减少能耗, 采用协作化、虚拟化技术,实现资源共享和动态调度,提高频谱效率,以达到 低成本、高带宽和灵活度的运营。
C-RAN——无线接入网架构优化 | 带你读《5G时代的承载网》之十八
|
监控 网络协议
|
数据处理 SoC Perl
ZYNQ与DSP之间EMIF16通信
介绍说明XQ6657Z35-EVM 高速数据处理评估板ZYNQ与DSP之间EMIF16通信的功能、使用步骤以及各个例程的运行效果。
ZYNQ与DSP之间EMIF16通信
高通平台开发系列讲解(PCIE篇)图解PCIe EP驱动初始化流程
高通平台开发系列讲解(PCIE篇)图解PCIe EP驱动初始化流程
809 0
高通平台开发系列讲解(PCIE篇)图解PCIe EP驱动初始化流程
RK3399平台开发系列讲解(高速设备驱动篇)6.51、PCI总线信号定义
RK3399平台开发系列讲解(高速设备驱动篇)6.51、PCI总线信号定义
105 0
RK3399平台开发系列讲解(高速设备驱动篇)6.51、PCI总线信号定义
RK3399平台开发系列讲解(高速设备驱动篇)6.54、PCIe对PCI配置空间的扩展
RK3399平台开发系列讲解(高速设备驱动篇)6.54、PCIe对PCI配置空间的扩展
290 0
RK3399平台开发系列讲解(高速设备驱动篇)6.54、PCIe对PCI配置空间的扩展
|
数据采集 数据处理 异构计算
ZYNQ(FPGA)与DSP之间SRIO通信实现
XQ6657Z35-EVM多核开发板通过SPI、EMIF16、uPP、SRIO 通信接口将DSP 与Zynq 结合在一起,组成DSP+Zynq 架构,实现了需求独特、灵活、功能强大的DSP+Zynq 高速数据采集处理系统。
ZYNQ(FPGA)与DSP之间SRIO通信实现
|
虚拟化 芯片
CORTEX-A7芯片中断系统基本原理与控制方法
CORTEX-A7芯片中断系统基本原理与控制方法
323 0
CORTEX-A7芯片中断系统基本原理与控制方法