写在前面
本文是本系列的第五篇,本文主要介绍FPGA常用运算模块-复数乘法器,xilinx提供了相关的IP以便于用户进行开发使用。
复数乘法器
复数乘法器IP基于用户指定的选项实现了符合 AXI4-Stream 的高性能、优化的复数乘法器。两个被乘数输入和可选的舍入位在独立的 AXI4-Stream 通道上作为从接口输入,结果乘积在 AXI4-Stream 主接口上输出。在每个通道内,操作数和结果以带符号的二进制补码格式表示。 操作数宽度和结果宽度是可参数化的。
特点
复数乘法器在许多 DSP 应用中很常见,包括信号混合和快速傅立叶变换。Complex Multiplier IP以笛卡尔形式执行两个操作数的复数乘法。 结果也是笛卡尔形式。
- 8 位至 63 位输入精度和高达 127 位输出精度。
- 支持截断或无偏舍入。
- 可配置的最小延迟。
- 实施选项包括 3 乘法器、4 乘法器和专用原语解决方案。
- 使用 LUT 或 DSP Slices 的选项。
复数计算方法
给定两个操作数,有两种基本架构来实现复数乘法:
a表示
可以设计一种三实乘法器解决方案,将一个乘法器换成三个预组合加法器并增加乘法器字长。
延迟和吞吐量
延迟是可配置的。 对于性能表,延迟设置为自动,从而形成完全流水线化的电路。 Complex Multiplier 支持所有配置中的全吞吐量,即每个周期一个输出。
IP核图示和端口描述
复数乘法器IP核如下图所示:
宽度常数A到H是任意变量,由GUI或配置参数决定。
硬件实现方式
Three Real Multiplier Solution
三实数乘法器的实现利用了DSP片中的预加器,节省了一般结构资源 。通常,三乘法器解决方案比四乘法器解决方案使用更多的片资源(LUT/触发器),并且具有更低的最大可实现时钟频率 。
Four Real Multiplier Solution
四实数乘法器方案最大限度地利用了DSP片资源,并且比三实数乘法器方案具有更高的时钟频率性能,在许多情况下达到了FPGA的最大时钟频率。
它仍然会消耗用于流水操作平衡的切片资源,但该切片成本始终低于等效三实数乘法器解决方案所需的成本。
Dedicated Primitive Solution
具有专用的DSPCPLX原语设备,能够使用两个DSP片的等效物执行完全的复数乘法。与3倍增或4倍增解决方案相比,**此解决方案使用的资源更少,延迟更低。无需特殊选择 **;当配置允许时,系统会自动使用此解决方案。
您可以设置特定的延迟值:将延迟配置设置为手动,然后相应地设置最小延迟值。这允许您针对某些情况指定调整,因为您可能需要比自动延迟分配提供的延迟值更高的延迟值:
- 向下兼容
- 非常高的性能(使用更高的延迟值可在输入级之前和输出级之后添加更快的可编程逻辑寄存器。)
LUT-based Solution
核心提供了仅使用LUT构建复数乘法器的选项。虽然此选项使用了大量的片,实现了较低的最大时钟频率,并比DSP片实现使用了更多的功率 ,但它可能适用于DSP片供应有限或使用较低时钟速率的应用。当选择LUT实现时,仅使用三实乘法器配置。
舍入原则
在DSP系统中,尤其是当系统包含反馈时,通过乘法器的字长增长应该通过量化结果来抵消。量化或字长减少会导致错误,引入量化噪声,并可能引入偏差。为了获得最佳结果,最好选择一种引入零平均噪声并最小化噪声方差的量化方法。
理想的圆化器不会对信号流引入直流偏置。如果使用静态规则四舍五入0.5,则产生的量化总是引入偏差。为避免偏差,舍入必须随机化。因此,核心增加一个舍入常数,并应以½概率额外增加1,从而抖动精确舍入阈值。下表列出了广泛用作控制信号的典型圆形进位源。
当过程中涉及多个级联DSP Slices时,四舍五入的结果并不简单,在实际的乘法和加法发生之前,无法从操作数预测输出符号(MSBo),并且会导致额外的延迟或在DSP片之外实现的资源。因此,一个外部信号应该被用来反馈到进位输入通过ROUND_CY引脚 (s_axis_ctrl_tdata的位0)。
一个很好的源可以是一个时钟分频触发器,或任何50%占空比的随机信号,它与结果的小数部分不相关。对于可预测的行为(如位真建模),ROUND_CY信号可能需要连接到 在您的设计中CLK独立源,例如一个复杂乘法器输入的LSB。
尽管如此,即使使用静态规则(例如ROUND_CY=0),与使用截断相比,偏移和量化误差也会减少。
在许多情况下,对于DSP切片实现,舍入常数的添加是“自由”的,因为可以使用C端口和进位输入。在没有DSP片的设备中,增加舍入通常需要额外的基于片的加法器和额外的延迟周期。
协议描述
该内核遵循AXI4流规范。
AXI4-Stream注意事项
转换为AXI4流接口,使得接口协议更加标准并增强了IP的互操作性。除aclk、ACLKEN和ARESETn等常规控制信号外,复乘法器的所有输入和输出均通过AXI4流通道传输。通道由tvalid和tdata always以及几个可选端口和字段组成。在除法器中,支持的可选端口为tready、tlast和tuser。tvalid和tready一起执行握手以传输消息,其中有效负载为tdata、tuser和tlast。在复数乘法器中,支持的可选端口为tready、tlast和tuser。tvalid和tready一起执行握手以传输消息,其中有效负载为tdata、tuser和tlast。复数乘法器对tdata中包含的操作数进行操作,并在输出通道的tdata中输出结果。复数乘法器本身不使用tuser和tlast,但提供了以与tdata延迟传输的功能。
这种将tlast和tuser从输入传递到输出的功能旨在简化系统中复数乘法器的使用。例如,复数乘法器可用作混频器或对流式分组数据进行操作的相移。在此示例中,可以将核心配置为通过打包数据通道的tlast,从而减小工作量。
基本握手协议
下图显示了AXI4流通道中的数据传输。
tvalid 由通道的源(主)端驱动,而tready 由接收器(从)驱动。 tvalid 表示有效载荷字段(tdata、tuser 和 tlast)中的值有效。 tready 表示从机已准备好接收数据。 当循环中 tvalid 和treaty 都为TRUE 时,就会发生传输。master 和 slave 分别为下一次传输适当地设置了 tvalid 和tready。