Mellanox网卡嵌入Xilinx FPGA将降低背板插槽数量与CPU周期占用

简介:

Mellanox公司的下一代Innova网络适配器不仅将整合强制性高速接口,同时亦将嵌入一块Xilinx FPGA芯片。

分流工作负载已经成为Mellanox适配器发展策略中的一项重要组成部分,而这显然也迎合了一部分客户的需求——正因为如此,FPGA的加入也变得顺理成章。

该公司高级营销主管Bob Doud在接受采访时解释称,即将推出的这款Innova-2适配器进一步扩展了“将对主机CPU不友好的软件负载的分流能力,通过在FPGA内加速不同功能实现网络功能提速。”

这款全新适配器将Mellanox ConnectX-5与Xilinx Kintex超大规模FPGA加以结合,且提供配置选项以加速主机应用或者网络应用。

通过配置,各板载连接机制——包括网络接口、RDMA以及PCIe——将能够实现主机加速(‘旁观’)或网络加速(‘线路内对冲’)等效果。

在线路内对冲场景下,来自以太网接口的流量将被传递至FPGA以实现网络分流,而后被交付至ConnectX-5系统芯片处,最后才抵达主机。在旁观配置下,流量则首先由该系统芯片处理,随后主机加速工作负载流量被进一步传递至FPGA处。

网上上的PCI交换机同样可以进行两路拆分。

另外,这款设备还支持OpenCAPI(即连续加速器处理器接口),Doud解释称这是为了获得IBM等行业领先厂商的支持。

“OpenCAPI是一种直接接入处理器的处理方式——能够对接IBM的Power9计算架构。这是一种经过改进的总线,类似于PCI Express——但PCIe并不属于连续接口。”

“我们的连接运行有8条通道,每条通道提供25 Gbps速率,因此其峰值数据吞吐量为200 Gbps。除去性能损耗,我们由处理器到FPGA的传输能力在160到170 Gbps之间……这意味着用户能够将一些非常重要的负载分流至FPGA处。”

这款网卡将提供两个版本,分别支持双25 Gbps以太网接口或双100 Gbps接口配置——后者可体现为200 Gbps纯以太网接口或100 Gbps以太网接口加100 Gbps Infiniband接口的形式。

Doud同时指出,以太网加Infiniband的组合也意味着用户可以对这款网卡进行编程,从而在企业内部的以太网与Infiniband存储基础设施之间提供高效桥接。

IPSec与TLS等安全应用对于内联处理体系而言必不可少,亦可用于处理DDoS以及防火墙工作负载。Mellanox公司已经将这类需求纳入发展路线图,而FPGA则能够在未来提供更显著的速度表现与编程性水平。

在旁观类工作负载方面,该公司希望能够在市场上建立起明确的客户吸引力。根据Doud的说法,其中主要包括机器学习、刚刚起步的FPGA即服务业务、区块链加速、搜索优化以及分析等等。

Innova-2网卡还将适用于存储加速场景,Doud指出其将在NVMe架构当中处理压缩与重复数据删除等常见工作负载。

当然,将FPGA引入网卡还能够帮助用户省去构建超大规模环境时所必要的时间投入。

FPGA编程

Doud表示,虽然Mellanox公司目前正在提供一系列FPGA应用以作为预设定功能(例如安全加速),但该公司亦希望拥有FPGA技术能力的客户自己动手以发挥更大的“魔力”。

Xilinx的工具包与开发套件将随这款适配器一同提供,客户亦可联系Xilinx公司生态系统内各合作伙伴以寻求更为广阔的施展空间。

根据Doud的解释,一部分Mellanox知识产权将以“垫片”的方式交付给开发人员。

“以以太网端口为例。大家可以从Xilinx处获得PHY与MAC层,而Mellanox公司则在此之后提供知识产权以实现您在ConnectX中能够找到的各类功能,具体包括负载分流以及数据包处理等等。”

同样的,PCIe MAC层将由Xilinx公司提供,而Mellanox方面则提供部分DMA引擎(例如处理数据移动),“这样客户将无需重新实现基础传输管道。”

尽管该公司并没有转型为服务厂商的雄心壮志,但其仍然组建起一支由FPGA工程师构成的团队,负责帮助客户“掌握电路板与系统相关专业知识”。


原文发布时间为:2017年11月7日

本文作者:Richard Chirgwin

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
7月前
|
存储 Ruby 内存技术
【机组期末速成】CPU的结构与功能|CPU结构|指令周期概述|指令流水线|中断系统
【机组期末速成】CPU的结构与功能|CPU结构|指令周期概述|指令流水线|中断系统
277 1
|
5月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLOv8改进- Backbone主干】YOLOv8 更换主干网络之 PP-LCNet,轻量级CPU卷积神经网络,降低参数量
YOLO目标检测专栏介绍了PP-LCNet,一种基于MKLDNN加速的轻量级CPU网络,提升了模型在多任务中的性能。PP-LCNet利用H-Swish、大核卷积、SE模块和全局平均池化后的全连接层,实现低延迟下的高准确性。代码和预训练模型可在PaddlePaddle的PaddleClas找到。文章提供了网络结构、核心代码及性能提升的详细信息。更多实战案例和YOLO改进见相关链接。
CPU和指令周期
转移指令时,需要判别转移是否成功,若成功则 PC 修改为转移指令的目标地址,否则下一条指令的地址仍然为PC自增后的地址
453 1
|
存储 内存技术
CPU设计(单周期和流水线)
CPU设计(单周期和流水线)
261 0
CPU设计(单周期和流水线)
|
异构计算
基于Verilog HDL与虚拟实验平台的计算机组成与CPU实验第二章:FPGA验证流程与远程实验平台
基于Verilog HDL与虚拟实验平台的计算机组成与CPU实验第二章:FPGA验证流程与远程实验平台
115 0
|
存储 芯片 异构计算
Xilinx FPGA SPI配置芯片都支持哪些型号
Xilinx FPGA SPI配置芯片都支持哪些型号
577 0
Xilinx FPGA SPI配置芯片都支持哪些型号
|
Linux
Linux查看CPU,内存,网卡,硬盘的型号
主要命令是:dmidecode 查看内存:dmidecode -t memory 查看内存插槽:dmidecode | grep -A16 "Memory Device$" 查看主板:dmidecode | grep -A16 "System Information$"查看硬盘:fdisk -...
3029 0
|
程序员 C++
《我的Vivado实战—单周期CPU指令分析》
《我的Vivado实战—单周期CPU指令分析》
189 0
《我的Vivado实战—单周期CPU指令分析》
|
程序员 C++
《我的Vivado实战—单周期CPU指令分析》
博文主要环境基于 Vivado 实现,逐步解析单周期 CPU 指令状态
1575 0
《我的Vivado实战—单周期CPU指令分析》
|
存储 缓存 数据处理
单周期16位CPU模型机的设计与实现
使用Verilog语言和Quartus软件,设计并仿真了一个单周期CPU模型,该模型遵循冯诺依曼架构,包括控制器、运算器、存储器等组件。模型机支持16位指令,包含算术、逻辑、移位、存储器读写和无条件转移等指令。设计中,指令存储器、控制单元、数据寄存器、算术逻辑单元和数据存储器各自承担相应功能,如指令读取、指令解析、数据处理和存储。通过测试程序验证了模型机的正确性,实现了预期的运算和存储操作。
902 0
单周期16位CPU模型机的设计与实现