FPGA资源平民化的新晋- F3 技术解析

简介: FPGA (现场可编程门阵列)由于其硬件并行加速能力和可编程特性,在传统通信领域和IC设计领域大放异彩。一路走来,FPGA并非一个新兴的硬件器件,由于其开发门槛过高,硬件加速算法的发布和部署保护要求非常高,FPGA的使用一直是高冷的美人,没有走入平常百姓家。

FPGA (现场可编程门阵列)由于其硬件并行加速能力和可编程特性,在传统通信领域和IC设计领域大放异彩。一路走来,FPGA并非一个新兴的硬件器件,由于其开发门槛过高,硬件加速算法的发布和部署保护要求非常高,FPGA的使用一直是高冷的美人,没有走入平常百姓家。也就导致FPGA的计算潜力还没有得到深入的挖掘。

阿里云虚拟化团队异构计算和高性能计算团队一直致力于将计算资源"平民化";高性能计算团队在做的E-HPC就是要让所有云上用户都能够瞬间拥有一个小型的超算集群,使得使用超算不再仅仅是一些超算中心和高校的特权;而异构计算团队则致力于将目前最快,最新的计算设备在云上提供给用户,使得曾经高冷的计算资源不再拒人千里之外:推出了FPGA云服务器FaaS 服务,其中的F1和F2实例已经对外提供服务,可以通过一键部署的方式把Intel和Xilinx的小规格的器件计算能力赋予客户。

2018年5月,新晋的大规格FPGA实例,基于Xilinx 16nm Virtex UltraScale+ 器件VU9P的实例F3正式发布。下面将对阿里云FPGA计算(下面简称FaaS)服务本身,以及这次发布的F3实例的底层硬件架构和平台架构进行技术解读。
FaaS
阿里FPGA云服务器平台FaaS(FPGA as a Service)在云端提供统一硬件平台与中间件,可大大降低加速器的开发与部署成本。加速器开发商的加速器可以形成服务提供给加速器用户,消除加速技术与最终用户的硬件壁垒。用户则能够在无需了解底层硬件的情况下,直接按需使用加速服务。

为了给加速器提供方和使用方提供更加高效、统一的开发及部署平台,FaaS提供两大套件:HDK和SDK。
image
HDK
HDK给所有的加速器开发者提供统一的FPGA硬件接口,提前帮用户解决了FPGA开发中难度最大的高速接口开发及调试,例如PCIe、SERDES接口、DDR控制器等等;使得用户能够直接得到硬件平台和FPGA接口的最大性能,不会因为团队开发能力和经验的欠缺,造成硬件平台性能浪费;高效、可靠、统一的接口套件也为云上平台的安全隔离、设备稳定提供了保障,不会因为用户的接口设计问题,造成服务器宕机;同时可以杜绝用户在FPGA端对主机的非法操作,为整个云上安全提供保障。

HDK包括两个部分,Shell和 Role;Shell部署在静态区域,提供上述统一接口部分。
在提供统一接口、安全性和便捷性的前提下,阿里云FaaS HDK 也尽最大的努力保证用户设计的灵活性,Role的概念应运而生。Role部署在动态区域,是在Shell之外,预先开发并提供的,用户可以配合用户逻辑(Customer Logic)使用。不同于Shell,用户可以根据需要,随时更换Role部分;这种Shell + Role的组合方式,保证了Shell的最轻量化,兼顾了统一性、便捷性和灵活性。

SDK
SDK包括两个部分:
 和HDK(Shell+Role)对应的主机端驱动(Drivers)和软件库(Libraries)
 FPGA管理工具 faascmd套件

驱动和软件库和HDK的Shell以及Role相对应,和HDK一起,为用户提供统一及灵活的软件支持,比如DMA驱动、寄存器访问驱动等等。

faascmd工具套件为用户提供云上FPGA管理服务,包括安全校验、FPGA镜像生成、下载及管理、FPGA加速卡状态查询反馈等功能。公有环境使用FPGA,需要考虑用户FPGA文件的安全,faascmd提供的秘钥及OSS bucket指定机制,有效保证了用户的FPGA下载文件的私密性。在线下的开发及应用中,开发者直接对FPGA进行下载操作,但在云上环境,用户对公有的FPGA资源直接操作对安全造成较大影响。Faascmd工具会对用户操作申请和物理FPGA资源进行隔离,但保证了用户下载安全的同时,提供给用户类似线下操作的体验;同时会对用户提交的网表进行校验,提高安全、降低风险。faascmd同时也提供调用接口,用户能很容易的在自己的App中调用管理工具,结合自身加速器特性实现各种管理功能。

FaaS 的IP市场
FaaS帮助降低了FPGA逻辑开发者开发的准入门槛:云上即开即用的FPGA资源,灵活的付费模式使得硬件资源触手可及;FPGA的逻辑开发上,简化了开发流程,统一了开发接口,把核心加速逻辑从周边硬件设备的接口调试中隔离出来,使得FPGA的新兴应用可以只关注业务加速的核心逻辑,快速迭代;在这两点上,阿里云的FaaS 迈出了FPGA资源平民化的第一步。

但是即便是大大简化的开发流程,触手可及的硬件资源,FPGA依然有一定的开发门槛。如何把已有的FPGA 逻辑IP价值最大化,联通FPGA加速的需求方和提供方呢?重要的一点就是如何解决在公共云数据中心层面保证FPGA加速IP的安全性,特别是对不可信的第三方进行输出和部署这个难题, FaaS是如何解决这个问题的呢?

答案是通过阿里云的FaaS的IP市场。技术上,通过与Xilinx联合开发的定制虚拟化技术达到IP加速与部署环境的强隔离,IP的用户对原始IP的网表文件完全隔离,网表文件的传输,部署,加速流程全程对用户都不可见,同时加速计算能力又可以透明的向IP使用方第三方用户开放,这是阿里云在FPGA云上加速服务另外一个技术创新。这个创新,完全杜绝了FPGA IP在云上输出的时候被盗版的可能,提供了非常高的安全保护机制。

更加严格的保密机制也在规划中:很快可以通过阿里云的KMS加密服务对IP进行加密保护,每次对IP加载前都需要向KMS服务获取秘钥解密,这样一来针对IP的使用下载有据可查;并且使得IP发布方的IP在数据中心内部都是安全的,因为没有了IP使用方的KMS秘钥,即便是阿里云也无法对原始的网表进行解密操作。

在阿里云FaaS IP 市场的帮助下,即便是从来没有任何FPGA开发经验的用户,也可以一键从IP市场中获取相应的加速逻辑,并部署到对应的FPGA器件上面去。相信通过即开即用的硬件资源,统一的软硬件逻辑开发接口和IP市场,阿里云能够真正实现FPGA计算资源平民化的承诺。
F3硬件架构
阿里云FaaS的F3实例在底层硬件上,是使用阿里云自主研发的高性能单卡双芯片的VU9P的板卡。这里要划重点啦:单卡双芯片。一定有用户要问为什么要这么设计呢?单卡双芯片的硬件设计有什么好处呢?

首先,对于用户来说,通过单卡双芯片的这样的规格设计,与阿里云配套自研的服务器一起,最高可以提供单实例16 块 VU9P的计算实例。16块 VU9P这是非常高的计算密度了,这是设计单卡双芯片的第一个目的:通过提高计算密度,在同等计算单元下集成了更多的加速芯片,能够有效降低单位计算力的成本,从成本和单位实例的垂直计算力提升上客户可以双重受益。

单卡双芯片的两个VU9P芯片通过PCIe 桥接入系统,那么双芯片之间的互相通信呢?是不是只能通过PCIe的总线来进行呢,答案是否定的,除了FPGA Direct这种通过PCIe互相通信的能力之外,在阿里云的自研的板卡上也是有特殊考虑的。在两个芯片之间,设计了一个高速互联通道,使得两个FPGA之间可以通过这个特殊的通道以高达600Gb/s的速率进行通信,这个通信技术称之为FPGA Link。要知道,现在的数据中心主流部署的接入交换机光口通信也只能达到100Gb/s的通信速率,更高的200Gb/s的交换机还在试部署中。

试想一下,无需额外的交换机和光口硬件,两个FPGA芯片可以通过FPGA Link技术以超短时延通过6倍于主流光口通信的速率进行通信,这个将会以极低的成本帮助用户开启大量新的FPGA加速应用模式。比如,小规模的芯片仿真,需要两个器件才能部署的下的情况,可以将整体仿真模块拆解之后部署到两个芯片上,两个芯片之间的数据通路和同步信号通过高速通道互联;还有其他的应用场景,需要把功能模块部署到两个FPGA芯片之上,而两者之间需要大量的数据交换,比如视频转码场景:把小规模但是模块数目比较多的解码单元、视频处理单元部署到一个FPGA之上,把面积占用比较多的编码单元放到另外一个FPGA上,编解码模组之间通过高速互联交换裸视频流。这将大大改善部署的难度,以及极大的解耦两个模块之间的相互依赖和设计难度。以上举了两个例子,读者一定能够举一反三的想到,其他需要流水线处理并需要大量数据交换的场景,阿里云的F3实例的双芯片实例能够为客户提供最大的价值。

不少应用场景对板载的DDR存储还是有要求的。阿里云的F3实例,为每个FPGA搭配了客户可见的64GB的DDR内存,这64GB的DDR分成4个通道,分别连接到VU9P的3个硅单元上面,其中一个通道对应的16GB DDR保留常驻,其余3个通道对应的48GB存储以可选的方式可以被客户逻辑加载使用。

目前,看到了双芯片实例除了FPGA Direct技术和高达600Gb/s的FPGA Link高速互联能力之外,另外值得一提的是:双芯片的实例与其他的双芯片实例板卡之间也可以通过400Gb/s的光口进行互联,而且400Gb/s的以太协议驱动是通过Xilinx预置的MAC硬核来加速,不占用逻辑面积;通过以太或者自定义的轻量级通信协议,能够在16芯片之间,以及更多的芯片之间搭建2维Mesh或者环形互联,进一步扩展多片互联的使用模式和应用场景。

最后,上一张图,让大家对上面做的硬件的技术解析有一个相对更具体的认识。
image

F3逻辑结构
F3逻辑结构,先给大家上一幅图:
abd230efe54c72e664e10c38ef1a91d1

  • SHELL和ROLE概念
    SHELL:

Shell是FPGA的静态区域,内部包含用户PCIe、管理PCIEe、板卡管理系统和一个DDR访问通道。为了提高板卡的安全和稳定性,用户无权修改SHELL区域。
ROLE:
在设计中提出了Role的概念,Role和Shell是类似的封装。而Role跟Custom Logic一起在动态区域。Role的提出,可以更加轻量化Shell。通过Role实现了同一个Shell既可以支持OpenCL开发,也可以支持RTL开发;最后就是Role的再次抽象降低了用户对于FPGA的开发门槛。我们提供基础的Role,也允许用户自行设计Role。我们希望更多第三方的设计者通过分享自己Role,使得FaaS平台更加精彩.

ROLE内部结构简介
Interconnect:该部分主要是提供给用户四路DDR通道的访问和USER_PCIe对四路DDR通路的访问。 该模块帮助用户隔离了时钟域,使用户逻辑在同一个时钟域上对4路DDR通道进行访问。
Inter chip interconnect: FPGA 单卡双芯片间互联通路;
Card interconnect: FPGA 卡间互联通路;
Custom Logic:用户自定义逻辑部分;

  • Custom Logic介绍

用户逻辑是属于Role的一部分,属于动态加载区域。 为了方便用户标准化使用,我们在RTL设计中使用了标准的AXI-4和AXI-LITE接口。

产品一键体验,查看详情

目录
相关文章
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
90 10
|
1天前
|
自然语言处理 文字识别 数据处理
多模态文件信息抽取:技术解析与实践评测!
在大数据和人工智能时代,企业和开发者面临的挑战是如何高效处理多模态数据(文本、图像、音频、视频)以快速提取有价值信息。传统方法效率低下,难以满足现代需求。本文将深度评测阿里云的多模态文件信息抽取解决方案,涵盖部署、应用、功能与性能,揭示其在复杂数据处理中的潜力。通过自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)等技术,该方案助力企业挖掘多模态数据的价值,提升数据利用效率。
12 4
多模态文件信息抽取:技术解析与实践评测!
|
4天前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
|
4天前
|
运维 监控 DataWorks
DataWorks 稳定性保障全解析:深入监控与资源调配
DataWorks 的稳定性保障体系涵盖精细监控与资源调配,确保企业数据业务高效、稳定运行。监控模块包括资源、任务和质量监控,及时预警并处理异常;资源调配策略则针对集成、调度、数据服务及计算资源进行科学配置,保障数据同步、任务优先级和高并发需求。通过全方位的监控和合理的资源配置,DataWorks 为企业筑牢数据根基,助力数字化转型。
36 10
|
4天前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
4天前
|
缓存 边缘计算 网络协议
深入解析CDN技术:加速互联网内容分发的幕后英雄
内容分发网络(CDN)是现代互联网架构的重要组成部分,通过全球分布的服务器节点,加速网站、应用和多媒体内容的传递。它不仅提升了访问速度和用户体验,还减轻了源站服务器的负担。CDN的核心技术包括缓存机制、动态加速、流媒体加速和安全防护,广泛应用于静态资源、动态内容、视频直播及大文件下载等场景,具有低延迟、高带宽、稳定性强等优势,有效降低成本并保障安全。
25 3
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。
|
22天前
|
数据采集 存储 JavaScript
网页爬虫技术全解析:从基础到实战
在信息爆炸的时代,网页爬虫作为数据采集的重要工具,已成为数据科学家、研究人员和开发者不可或缺的技术。本文全面解析网页爬虫的基础概念、工作原理、技术栈与工具,以及实战案例,探讨其合法性与道德问题,分享爬虫设计与实现的详细步骤,介绍优化与维护的方法,应对反爬虫机制、动态内容加载等挑战,旨在帮助读者深入理解并合理运用网页爬虫技术。
|
28天前
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
70 7
|
1月前
|
负载均衡 网络协议 算法
Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式
本文探讨了Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式,以及软件负载均衡器、云服务负载均衡、容器编排工具等实现手段,强调两者结合的重要性及面临挑战的应对措施。
77 3

相关产品

  • FPGA云服务器
  • 推荐镜像

    更多