Xilinx Zynq7035算力指标

简介: 本文介绍广州星嵌DSP C6657+Xilinx Zynq7035平台下Xilinx Zynq7035算力指标。

目的
本文介绍广州星嵌DSP C6657+Xilinx Zynq7035平台下Xilinx Zynq7035算力指标。

基本概念

FLOPs/FLOPS
FLOPs,Floating Point Operations,浮点运算次数,每一个加、减、乘、除操作都算1FLOPs操作,常用来衡量模型计算复杂度。
注意下FLOPS,注意全大写,是floating point operations per second的缩写,意指每秒浮点运算次数,理解为计算速度。是一个衡量硬件性能的指标,两者别弄混。

MACs
Multiply–Accumulate Operations,乘加累积操作数,常常被人们与FLOPs概念混淆。实际上1MACs包含一个乘法操作与一个加法操作,大约包含2FLOPs。通常MACs与FLOPs存在一个2倍的关系。

关系
为什么使用乘加运算指标(MACs)呢?因为神经网络运算中内积、乘加运算无处不在:

对于一个3*3滤波器在特征图上的一次运算可以表示为:
y = w 0 ∗ x 0 + w 1 ∗ x 1 + w 2 ∗ x 2 + w 3 ∗ x 3 + w 4 ∗ x 4 + w 5 ∗ x 5 + w 6 ∗ x 6 + w 7 ∗ x 7 + w 8 ∗ x 8

对于上式,记 w 0 ∗ x 0 +… 为一次乘加,即1MACs。所以对于上式而言共有9次乘加,即9MACs(实际上,9次相乘、9-1次相加,但为了方便统计,将计算量近似记为9MACs,就像算法复杂度通常把 O(N+b)表示成O(N)一样,都只是一种近似)。

对于上式而言,可以认为执行了9次乘法、9-1次加法,所以一共是9+(9-1)次FLOPs。所以近似来看1FLOPs ≈ 2MACs。

ZYNQ PL端算力指标
参考Xilinx官方文档Zynq-7000 SoC Data Sheet: Overview (DS190),可找到Zynq 7035 PL端的MACs指标值为1334 GMACs,约为2668 GFLOPs,如下图所示:
mark_图片1.png

FPGA PS端性能指标
参考Xilinx官方资料Zynq-7000 SoC Data Sheet: Overview (DS190),可获得Zynq 7035 PS端CPU的性能参数,如下图红框标出的地方所示:
mark_图片2.png

mark_图片3.png

Zynq 7035 PS端双ARM总运算能力:2.5DMIPS/MHz Per CPU x 1000 MHz x 2 CPU = 5000 DMIPS。

相关文章
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
1529 0
|
机器学习/深度学习 调度 芯片
快速入门数字芯片设计,UCSD ECE111(九)FPGA vs ASIC(一)
快速入门数字芯片设计,UCSD ECE111(九)FPGA vs ASIC
100 0
|
芯片 C++ 异构计算
快速入门数字芯片设计,UCSD ECE111(九)FPGA vs ASIC(二)
快速入门数字芯片设计,UCSD ECE111(九)FPGA vs ASIC(二)
81 0
|
存储 前端开发 芯片
快速入门数字芯片设计,UCSD ECE111(九)FPGA vs ASIC(三)
快速入门数字芯片设计,UCSD ECE111(九)FPGA vs ASIC(三)
114 0
|
缓存 安全 前端开发
Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%
Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%
362 0
|
数据采集 传感器 监控
SOM-XQ6657Z45工业级核心板DSP+ARM+FPGA C6657 ZYNQ7035/45
一款基于TI KeyStone 架构C6000 系列TMS320C6657 双核C66x定点/浮点DSP以及Xilinx Zynq-7000 系列XC7Z035/045 SoC 处理器设计的工业级核心板。
SOM-XQ6657Z45工业级核心板DSP+ARM+FPGA C6657 ZYNQ7035/45
|
人工智能 机器人 云计算
Xilinx Zynq-7015 SoC工业级核心板 SOM-XQ7Z15 Cortex-A9 + Artix-7
SOM-XQ7Z15是广州星嵌电子科技有限公司新推出的一款基于Xilinx Zynq-7000系列XC7Z015高性能低功耗处理器设计的异构多核工业级核心板,处理器集成PS端单/双核ARM Cortex-A9 + PL端Artix-7架构28nm可编程逻辑资源、最大频率766MHz,支持6.25G的高速SerDes,可支持PCIe、SATA、SFP等。
Xilinx Zynq-7015 SoC工业级核心板 SOM-XQ7Z15 Cortex-A9 + Artix-7
|
算法 openCL 异构计算
AMD力挺OpenCL 用GPU打造通用计算神话
本文讲的是AMD力挺OpenCL 用GPU打造通用计算神话,日前,中国高性能计算年会在长沙召开,展会公布了2009年最新的中国TOP 100,国防科技大学研制的天河一号超级计算机以1 PFlops(千万亿次)的计算速度夺得了中国超算排行榜的第一名。
1793 0
|
人工智能 5G 芯片
芯片里的CPU、GPU、NPU是什么,它们是如何工作的
芯片里的CPU、GPU、NPU是什么,它们是如何工作的
692 0
芯片里的CPU、GPU、NPU是什么,它们是如何工作的
|
存储 定位技术 芯片
APU、CPU、GPU、SoC傻傻分不清楚?
APU、CPU、GPU、SoC傻傻分不清楚?
1446 0
APU、CPU、GPU、SoC傻傻分不清楚?