CUDA学习(八十六)

简介:

计算能力6.x:
多处理器由以下部分组成:

  • 64(计算能力6.0)或128(6.1和6.2)用于算术运算的CUDA内核
  • 用于单精度浮点超越函数的16(6.0)或32(6.1和6.2)特殊功能单元,
  • 2(6.0)或4(6.1和6.2)warp调度程序。

当一个多处理器被执行时,它首先在它的调度器中进行分配。 然后,在每个指令发布时间,每个调度程序为其分配的一个warp指令发出一条指令,如果有的话,该指令即可执行。
多处理器具有:

  • 一个由所有功能单元共享的只读常量高速缓存,可加速驻留在设备内存中的常量内存空间的读取速度,
  • 一个统一的L1 /纹理缓存,用于从24 KB(6.0和6.2)或48 KB(6.1)的全局内存读取数据,
  • 大小为64 KB(6.0和6.2)或96 KB(6.1)的共享内存。

纹理单元也使用统一的L1 /纹理缓存,实现纹理和表面存储器中提到的各种寻址模式和数据过滤。
还有一个由所有多处理器共享的L2缓存,用于缓存对本地或全局内存的访问,包括临时寄存器溢出。 应用程序可以通过检查l2CacheSize设备属性来查询L2缓存大小。
高速缓存行为(例如,读取是否高速缓存在统一的L1 /纹理高速缓存和L2中或L2中)可以使用对加载指令的修饰符以逐访问为基础部分配置。
全局内存:
全局内存的运行方式与计算能力5.x的设备相同。
共享内存:
共享内存的运行方式与计算能力5.x的设备相同。
计算能力7.x(终于到Volta架构的GPU了,比Pascal架构的介绍多好多):
Architecture:
多处理器由以下部分组成:

  • 用于单精度算术运算的64个FP32内核,
  • 用于双精度算术运算的32个FP64内核,
  • 用于整数运算的64个INT32内核,
  • 8个混合精度的Tensor Cores用于深度学习矩阵算术
  • 16个用于单精度浮点超越函数的特殊功能单元
  • 4个warp调度器。

多处理器在其调度程序中静态分配其warp。 然后,在每个指令发布时间,每个调度程序为其分配的一个warp指令发出一条指令,如果有的话,它就可以执行了。
多处理器具有:

  • 一个由所有功能单元共享的只读常量高速缓存,可加速驻留在设备内存中的常量内存空间的读取速度,
  • 一个总大小为128 KB的组合数据缓存和共享内存。

共享内存从128 KB数据高速缓存中分区出来,可以配置为0,8,16,32,64或96 KB。其余数据高速缓存充当L1高速缓存,并且也被纹理单元使用,用于实现纹理和表面内存中提到的各种寻址和数据过滤模式。
timg

目录
相关文章
|
存储 程序员 C语言
C语言变量命名规则
C语言变量命名规则
1219 0
|
监控 网络协议 Java
《Java工程师成神之路》阿里技术专家之作,囊括Java所有知识点!
很多Java程序员一直希望找到一份完整的学习路径,但是市面上很多书都是专注某一个领域的,没有一份完整的大图,以至于很多程序员很迷茫,不知道自己到底应该从哪里开始学,或者不知道自己学习些什么。
|
移动开发 前端开发 JavaScript
前端vue2、vue3去掉url路由“ # ”号——nginx配置(一)
前端vue2、vue3去掉url路由“ # ”号——nginx配置
1256 0
|
监控 网络安全 开发者
Python中的Paramiko与FTP文件夹及文件检测技巧
通过使用 Paramiko 和 FTP 库,开发者可以方便地检测远程服务器上的文件和文件夹是否存在。Paramiko 提供了通过 SSH 协议进行远程文件管理的能力,而 `ftplib` 则提供了通过 FTP 协议进行文件传输和管理的功能。通过理解和应用这些工具,您可以更加高效地管理和监控远程服务器上的文件系统。
528 20
|
5月前
|
人工智能 自然语言处理 监控
09_LLM评估方法:如何判断模型性能的好坏
在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术,它们能够理解和生成人类语言,执行复杂的认知任务。然而,随着模型能力的不断提升,如何科学、全面地评估这些模型的性能,成为了一个至关重要的问题。
|
定位技术 Android开发 iOS开发
引入百度地图,安卓出现白屏问题
引入百度地图,安卓出现白屏问题
446 57
|
存储 NoSQL Java
Java调度任务如何使用分布式锁保证相同任务在一个周期里只执行一次?
【10月更文挑战第29天】Java调度任务如何使用分布式锁保证相同任务在一个周期里只执行一次?
515 1
|
安全 数据安全/隐私保护 UED
什么是OTA升级管理系统?
【7月更文挑战第20天】什么是OTA升级管理系统?
874 6
|
前端开发 JavaScript API
|
存储 机器学习/深度学习 人工智能
极智AI | 从部署的角度看bn和in算子
本文介绍一下从部署角度来看 bn 和 in 的实现与对比。
471 1