HLS介绍 - 01 - FPGA的架构、结构以及硬件设计相关概念(一)

简介: HLS介绍 - 01 - FPGA的架构、结构以及硬件设计相关概念

写在前面


学习HLS,首先要了解关于软件和硬件的区别,本文参考是xilinx官方手册UG998的第二章和第三章,主要介绍了FPGA的架构、FPGA的并行结构,以及HLS需要知道的相关硬件概念。

FPGA架构


FPGA 的基本结构由以下元素组成:

  • 查找表 (LUT):该元素执行逻辑运算。
  • 触发器(FF):该寄存器元素存储LUT 的结果。
  • 电线(wire):这些元素将元素相互连接。
  • 输入/输出(I/O) :这些物理上可用的端口将数据输入和输出FPGA。

这些元素的组合产生了的基本 FPGA 架构。

image.png

尽管这种结构对于任何算法的实现来说都足够了,但最终实现的效率在计算吞吐量、所需资源和可实现的时钟频率方面受到限制。

现代 FPGA 架构将基本元素与额外的计算和数据存储块结合在一起,从而提高了设备的计算密度和效率。

  • 用于分布式数据存储的嵌入式存储器
  • 用于以不同时钟速率驱动 FPGA 架构的锁相环 (PLL)
  • 高速串行收发器
  • 片外存储器控制器
  • 乘法累加模块

image.png

这些元素的组合为 FPGA 提供了实现处理器上运行的任何软件算法的灵活性。

LUT


LUT 是 FPGA 的基本构建块,能够实现 N 个布尔变量的任何逻辑功能。 本质上,这个元素是一个真值表,其中不同的输入组合实现不同的功能以产生输出值。 真值表的大小限制为 N,其中 N 表示 LUT 的输入数量。 对于一般的 N 输入 LUT,访问的内存位置数为:

image.png

它允许查找表实现以下功能:

image.png

在FPGA中LUT的N值一般为6,也就是6输入查找表。

LUT 的硬件实现可以被认为是连接到一组多路复用器的一组存储单元。 LUT 的输入充当多路复用器上的选择器位,以选择给定分支点的结果。这种表示很重要,因为 LUT 既可以用作函数计算引擎,也可以用作数据存储元素。 下图展示了作为存储单元集合的 LUT 的功能表示。

image.png

Flip-Flop


触发器是 FPGA 架构中的基本存储单元。 该元素始终与 LUT 配对,以协助逻辑流水线和数据存储。 触发器的基本结构包括数据输入、时钟输入、时钟使能、复位和数据输出。 在正常操作期间,数据输入端口的任何值都被锁存并在时钟的每个脉冲上传递到输出。 时钟使能引脚的目的是允许触发器为多个时钟脉冲保持特定值。 只有当时钟和时钟使能都等于 1 时,新数据输入才会被锁存并传递到数据输出端口。

image.png

触发器的结构如上图所示。

DSP Block


Xilinx FPGA 中可用的最复杂的计算模块是 DSP 模块。

image.png

DSP 块是嵌入到 FPGA 结构中的算术逻辑单元 (ALU),它由三个不同块的链组成。 DSP 中的计算链由连接到乘法器的加/减单元组成,乘法器连接到最终的加/减/累加引擎。 该链允许单个 DSP 单元实现以下形式的功能:

image.png

或者

image.png

Storage Elements


FPGA设备包括可用作随机存取存储器(RAM)、只读存储器(ROM)或移位寄存器的嵌入式存储器元件。这些元件是块RAM(BRAM)、超RAM块(URAM)、LUT和移位寄存器(SRL)。

BRAM是一个双端口RAM模块,实例化到FPGA结构中,为相对较大的数据集提供片上存储。设备中可用的两种类型的BRAM存储器可以容纳18K或36K位。这些可用存储器的数量是特定于设备的。这些存储器的双端口特性允许对不同位置进行并行、相同的时钟周期访问。

就数组在C/C++代码中的表示方式而言,BRAM可以实现RAM或ROM。唯一的区别是数据写入存储元素的时间。在RAM配置时,可以在电路运行期间的任何时间读取和写入数据。相反,在ROM配置中,只能在电路运行时读取数据。ROM的数据作为FPGA配置的一部分写入,不能以任何方式修改。

UltraRAM块是双端口、同步288 Kb RAM,具有4096位深和72位宽的固定配置。它们可在UltraScale+设备上使用,提供的存储容量是BRAM的8倍。

LUT是在设备配置期间写入真值表内容的小型存储器。由于Xilinx FPGA中LUT结构的灵活性,这些块可用作64位存储器,通常称为分布式存储器(distributed memories) 。这是FPGA设备上可用的最快的内存类型,因为它可以在结构的任何部分实例化,从而提高所实现电路的性能。

移位寄存器是相互连接的寄存器链。此结构的目的是提供沿计算路径的数据重用,例如使用过滤器。基本滤波器由一系列乘法器组成,这些乘法器将数据样本与一组系数相乘。通过使用移位寄存器存储输入数据,内置数据传输结构在每个时钟周期将数据样本移动到链中的下一个乘法器。下图显示了移位寄存器的示例。

image.png

FPGA并行性与处理器体系结构


在处理器上执行程序


无论什么类型的处理器,都以指令序列的形式执行程序,并将其转换为软件应用程序的有用计算。此指令序列由处理器编译器工具生成,如GNU编译器集合(GCC),它将以C/C++表示的算法转换为处理器本机的汇编语言结构。

这也就,即使是一个简单的操作,例如a+b的操作,也会产生多个汇编指令。每个指令的计算延迟在不同的指令类型中并不相等。例如,根据a和b的位置,LD操作需要不同数量的时钟周期来完成。如果这些值在处理器缓存中,这些加载操作将在几十个时钟周期内完成。

如果这些值位于主双数据速率(DDR)内存中,则操作需要数百到数千个时钟周期才能完成。如果这些值位于硬盘驱动器中,则加载操作需要更长的时间才能完成。这就是为什么具有缓存命中跟踪的软件工程师花费大量时间重新构造算法,以增加内存中数据的空间局部性,从而提高缓存命中率并减少每条指令花费的处理器时间。

FPGA上执行程序


FPGA是一种固有的并行处理结构,能够实现可在处理器上运行的任何逻辑和算术功能。主要区别在于用于将软件描述转换为RTL的Vivado HLS编译器不受缓存和统一内存空间的限制。

例如计算a+b=z,z 的计算由 Vivado HLS 编译成几个 LUT,以实现输出操作数的大小。 例如,假设在原始软件程序中,变量 a、b 和 z 是用短数据类型定义的。 这种定义了 16 位数据容器的类型由 Vivado HLS 实现为 16 个 LUT。用于计算z的LUT仅能进行进行计算z的功能实现。与所有计算共享同一ALU的处理器不同,FPGA实现为软件算法中的每个计算实例化独立的LUT集。

除了为每次计算分配唯一的LUT资源外,FPGA在内存结构和内存访问成本方面与处理器不同。在FPGA实现中,Vivado HLS编译器将内存安排到尽可能靠近操作中使用点的多个存储库中。这会产生瞬时内存带宽,远远超过处理器的能力。例如,Xilinx Kintex®-7 410T设备总共有1590个18 k位BRAM可用。在内存带宽方面,该设备的内存布局为软件工程师提供了寄存器级每秒0.5M位和BRAM级每秒23T位的容量。

关于计算吞吐量和内存带宽,Vivado HLS编译器通过调度、流水线和数据流过程来实现FPGA结构的功能。虽然对用户透明,但这些过程是软件编译过程中不可或缺的阶段,可以提取软件应用程序的最佳电路级实现。

Scheduling


调度是识别不同操作之间的数据和控制依赖关系的过程,以确定每个操作何时执行。在传统的FPGA设计中,这是一个手动过程,也称为硬件实现的软件算法并行化。

Vivado HLS分析相邻操作之间以及跨时间的依赖关系。这允许编译器将操作分组以在同一时钟周期内执行,并设置硬件以允许函数调用重叠。函数调用执行的重叠消除了处理器限制,处理器限制要求当前函数调用在同一组操作的下一个函数调用开始之前完全完成。这一过程称为流水线。

Pipelining


流水线是一种数字设计技术,它允许设计者在算法硬件实现中避免数据依赖并提高并行度。原始软件实现中的数据依赖性保留为功能等效,但所需的电路被划分为一系列独立的级。链中的所有级在相同的时钟周期上并行运行。唯一的区别是每个阶段的数据来源。计算中的每一级从前一级在前一时钟周期内计算的结果接收其数据值。例如,为了计算以下函数,Vivado HLS编译器实例化一个乘法器和两个加法器块:

image.png

下图显示了这种计算结构的无流水线和有流水线的效果。

image.png

它显示了示例函数的两个实现。顶层实现是计算结果y所需的数据路径,无需流水线。此实现的行为类似于相应的C/C++函数,因为在计算开始时必须知道所有输入值,并且一次只能计算一个结果y。底部实现显示了同一电路的流水线版本。

数据路径中的方框表示由FPGA结构中的触发器块实现的寄存器。每个方框都可以算作一个时钟周期。因此,在流水线版本中,每个结果y的计算需要三个时钟周期。通过添加寄存器,每个块在时间上被隔离为单独的计算部分。这意味着带有乘法器的部分和带有两个加法器的部分可以并行运行,并减少函数的总体计算延迟。

目录
相关文章
|
1月前
|
Linux 编译器 开发者
Linux设备树解析:桥接硬件与操作系统的关键架构
在探索Linux的庞大和复杂世界时🌌,我们经常会遇到许多关键概念和工具🛠️,它们使得Linux成为了一个强大和灵活的操作系统💪。其中,"设备树"(Device Tree)是一个不可或缺的部分🌲,尤其是在嵌入式系统🖥️和多平台硬件支持方面🔌。让我们深入了解Linux设备树是什么,它的起源,以及为什么Linux需要它🌳。
Linux设备树解析:桥接硬件与操作系统的关键架构
|
2月前
|
存储 负载均衡 分布式数据库
bigdata-27-HBase架构与概念
bigdata-27-HBase架构与概念
60 1
|
1天前
|
编译器 芯片 异构计算
LabVIEWCompactRIO 开发指南24 第5章通过LabVIEW FPGA定制硬件
LabVIEWCompactRIO 开发指南24 第5章通过LabVIEW FPGA定制硬件
|
4天前
|
监控 云计算 开发者
探索云计算中的无服务器架构:从概念到实践
无服务器架构作为云计算领域的新兴技术,正在以其高效、灵活的特性吸引着越来越多的开发者和企业。本文将深入探讨无服务器架构的概念及其在云计算中的应用,通过实际案例展示如何利用无服务器架构构建可靠、可扩展的应用系统。
|
13天前
|
前端开发 开发者
【专栏】BEM(Block-Element-Modifier)是一种前端命名规范和架构方法,旨在创建清晰、可维护的代码结构。
【4月更文挑战第29天】BEM(Block-Element-Modifier)是一种前端命名规范和架构方法,旨在创建清晰、可维护的代码结构。它包括Block(独立功能单元)、Element(Block的子元素)和Modifier(表示状态或变体)。BEM的特点包括命名一致性、模块化设计、清晰结构和可复用性,适用于代码组织、样式管理、组件化开发和团队协作。虽然命名较长和学习成本是其局限性,但BEM在提升代码质量和效率方面具有显著优势,是前端开发的重要工具。
|
13天前
|
安全 Java 数据安全/隐私保护
Spring Boot优雅实现多租户架构:概念与实战
【4月更文挑战第29天】在多租户系统中,一个应用实例服务于多个租户,每个租户享有独立的数据视图,而应用的基础设施被共享。这样的架构不仅优化了资源使用,还能降低维护和运营成本。本文将详细介绍如何在Spring Boot中实现多租户架构,并提供具体的实战案例。
39 2
|
15天前
|
敏捷开发 运维 监控
【专栏】微服务架构,以敏捷、灵活著称,通过拆分大型应用为小型自治服务,简化开发运维
【4月更文挑战第27天】微服务架构,以敏捷、灵活著称,通过拆分大型应用为小型自治服务,简化开发运维。本文探讨其基本概念、起源,核心优势(如敏捷开发、高可伸缩性)及挑战(系统复杂度、数据一致性),并分享实施策略(服务划分、技术选型、CI/CD)与实践案例(Netflix、Uber、Spotify),展示微服务如何重塑软件开发,并成为未来复杂应用系统的基础。
|
2月前
|
传感器 算法 机器人
在实用化人形机器人控制系统中深入应用FPGA的框架设计(基于特斯拉Optimus-Gen2的硬件系统)
针对实用化人形机器人的控制系统,以深入应用FPGA技术为指导思想做了一个框架设计,提供一个具象化的设计实例、参考技术方案,协助各研发团队及相关决策者了解这一技术思路的价值。 进而,笔者希望读者将这个框架设计与《在实用化人形机器人研发流程中深入应用FPGA技术的流程图》结合起来进行分析、思考,希望: 进一步降低将FPGA深入应用于人形机器人在纯粹技术维度上的门槛; 助力更多正在人形机器人领域参与竞争的团队 -- 及时做出实质性决策,及时将更多资源分配到深入应用FPGA技术这一竞争维度。
98 4
在实用化人形机器人控制系统中深入应用FPGA的框架设计(基于特斯拉Optimus-Gen2的硬件系统)
|
2月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别