AMD 5XXX 系列显卡的 peak bandwidth计算

简介: 在ATI Stream Computing Programming Guide中,例举了AMD 5系列显卡的参数信息。 我比较关注其中Peak bandwidths的计算,以便在opencl程序测试bandwidth利用率。

在ATI Stream Computing Programming Guide中,例举了AMD 5系列显卡的参数信息。

我比较关注其中Peak bandwidths的计算,以便在opencl程序测试bandwidth利用率。

下面,我以5870为例,探讨一下如何计算得到这些结果:

    L1 cache的 peak bandwidth(L1<=>ALU) = compute units* Wavefront Size/compute Unit *Engine clock = cu数量*每个cu的wave大小*显卡系统时钟频率

= 20 * 64 * 0.85 = 1088 GB/s

注:在AMD GPU中,每个wave包含64个thread.

L2 cache peak bandwidth(L1<=>L2) = Number of Channels * wavefrontSize * Engine clock = 内存通道数量*wave大小*显卡系统时钟频率

= 8 * 64 * 0.85 = 435.2 GB/s

注:在AMD 8XXX显卡中,每个mc通道对应一个64K的L2 cache。

Global memeory peak rate(L2<=>Memory) = Number of Channels * memory pin rate * bits per chanel/8 = 内存通道数量*memory pin rate*每个channel位宽/8

= 8 * 4.800 * 32/8 = 153.6 GB/s

注:在cypress中,用的GDDR5,mclk是1200MHZ, GDDR5的date rate 是4,所以memory pin rate = 1200 * 4 = 4800Mb/pin

除以8是转化为字节。

 

Const cache read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 16 * 320 * 0.85 = 4352 GB/s

注:5870中的hardware参数

1

另外需要注意的对于consant buffer,只有直接地址访问时候,才能达到4352GB/s的峰值,如果通过索引方式,参考上表,用4或这0.6代替16.

LDS Read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 8 * 320 * 0.85 = 2176 Gb/s

注:LDS(对应cl中local memory)带宽计算方式和const buffer一样。

GPR read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 48 * 320 * 0.85 = 13056 GB/s

注:GPR(通用寄存器,对应cl中worktime 使用的private变量,对于kernel中局部变量,shade compiler一般都为其分配GPR)带宽计算方式和const buffer一样

下图为58xx的性能参数

2

相关文章
|
监控 Java API
SpringBoot 2.0 + 阿里巴巴 Sentinel 动态限流实战
前言 在从0到1构建分布式秒杀系统和打造十万博文系统中,限流是不可缺少的一个环节,在系统能承受的范围内既能减少资源开销又能防御恶意攻击。 在前面的文章中,我们使用了开源工具包 Guava 提供的限流工具类 RateLimiter 和 OpenResty 的 Lua 脚本分别进行 API 和应用层面的限流。
3631 0
|
SQL 关系型数据库 MySQL
mybatis学习(21):MySQL 字符串 转换 CAST与CONVERT 函数的用法
mybatis学习(21):MySQL 字符串 转换 CAST与CONVERT 函数的用法
1648 0
|
存储 监控 安全
网络安全法中的 ISO 27001 和 CIA
【8月更文挑战第19天】
904 0
|
网络虚拟化 网络架构
【eNSP 华为模拟器】单臂路由及操作步骤【图文】
【eNSP 华为模拟器】单臂路由及操作步骤【图文】
1893 0
【eNSP 华为模拟器】单臂路由及操作步骤【图文】
|
弹性计算 云计算
阿里云服务器ECS是什么?ECS英文全称?
阿里云ECS英文全程Elastic Compute Service,弹性计算服务的意思,ECS是阿里云服务器的英文名,一台ECS实例就是一台阿里云服务器
2143 0
阿里云服务器ECS是什么?ECS英文全称?
|
前端开发 Java API
【小家Spring】Spring MVC容器的web九大组件之---HandlerMapping源码详解(二)---RequestMappingHandlerMapping系列(下)
【小家Spring】Spring MVC容器的web九大组件之---HandlerMapping源码详解(二)---RequestMappingHandlerMapping系列(下)
【小家Spring】Spring MVC容器的web九大组件之---HandlerMapping源码详解(二)---RequestMappingHandlerMapping系列(下)
LabVIEW实现Modbus通信
Modbus只是工业控制中常用的一种协议方式,本篇博文依旧是通过串口通信的方式实现基本的Mosbus操作。
|
开发工具 Android开发
Android Studio 报错Emulator: PANIC: Cannot find AVD system path. Please define ANDROID_SDK_ROOT(解决方案)
Android Studio 报错Emulator: PANIC: Cannot find AVD system path. Please define ANDROID_SDK_ROOT(解决方案)
Android Studio 报错Emulator: PANIC: Cannot find AVD system path. Please define ANDROID_SDK_ROOT(解决方案)
|
XML SQL JSON
MyBatis-Plus - JacksonTypeHandler VS FastjsonTypeHandler
MyBatis-Plus - JacksonTypeHandler VS FastjsonTypeHandler
1895 0

热门文章

最新文章