开发者社区> 迈克老狼1> 正文

AMD OpenCL大学课程(13) OpenCL扩展

简介: 1、OpenCL扩展      OpenCL扩展是指device支持某种特性,但这中特性并不是OpenCL标准的一部分。通过扩展,厂商可以给device增加一些新的功能,而不用考虑兼容性问题。现在各个厂商在OpenCL的实现中或多或少的使用了自己的扩展。
+关注继续查看

1、OpenCL扩展

     OpenCL扩展是指device支持某种特性,但这中特性并不是OpenCL标准的一部分。通过扩展,厂商可以给device增加一些新的功能,而不用考虑兼容性问题。现在各个厂商在OpenCL的实现中或多或少的使用了自己的扩展。

     扩展的类型分为三种:

  • Khronos OpenCL工作组批准的扩展,这种要经过一致性测试,可能会被增加到新版本的OpenCL规范中。这种扩展都以cl_khr作为扩展名。
  • 外部扩展, 以cl_ext为扩展名。这种扩展是由2个或2个以上的厂商发起,并不需要进行一致性测试。比如cl_ext_device_fission扩展。
  • 某个厂商自己的扩展,比如AMD的扩展printf

2、使用扩展

      OpenCL中,要使用扩展,我们必须打开扩展,在默认状态下,所有的扩展都是禁止的。

       #pragma OPENCL EXTENSION extension_name : enable

       对于OpenCL,一个函数只有在运行时,才知道其是否可用,所以要确定某个扩展是否可用,是程序员的责任,我们必须在使用前查询它的状态。下面是查询扩展是否可用的代码:

image

3、一些Khronos批准的扩展

   原子操作,它可以保证函数只在一个device上实施原子操作,比如:

—cl_khr_{global | local}_int32_base_atomics

—cl_khr_{global | local}_int32_extended_atomics

—cl_khr_int64_base_atomics

—cl_khr_int64_extended_atomics

注意:原子操作能够保证操作结果正确,但不保证操作的顺序。

image

image

       双精度和half精度扩展cl_khr_fp64,在一些物理模拟或者科学计算中,需要双精度支持。AMD的64位扩展用cl_amd_fp64,对于cl_khr_fp64是部分支持,NV支持cl_khr_fp64扩展。但half精度扩展cl_khr_fp16,这两家厂商现在都还不支持。

       在OpenCL中,Byte addressable store 也是一个扩展,对于sub 32的写,比如char,需要该扩展的支持。例如AMD 直方图的例子中,每个bin用一个byte来存储。

       3D Image Write Extensions,在OpenCL标准中,支持2D图像的读写,3D图形的写就需要通过扩展来操作。

       The extension cl_KHR_gl_sharing 允许应用程序使用OpenGL buffer,纹理等。

4、AMD扩展

     cl_ext_device_fission扩展,通过该扩展把一个设备分成多个子设备,每一个设备都有自己的队列,主要是多核cpu以及Cell Broadband Engine使用,该扩展由AMD,Apple,Intel以及IBM四家联合提出。

     fission设备可能的用途包括:

  • 保留一部分设备处理高优先级、低时延的任务。
  • Control for the assignment of work to individual compute units
  • Subdivide compute devices along some shared hardware feature like a cache

     对于每个子设备,都有自己的queue,比如下面的图中,我们把不同任务发送到两个子设备。值得注意的是:要把设备拆分为子设备,首先我们要了解该设备的架构,然后根据任务及device架构进行拆分。

image

       GPU printf 扩展,主要用来debug kernel代码。cl_amd_media_ops扩展,主要用于一些多媒体操作。The AMD device query extension 主要用于查询和事件处理。

      

  5、NV扩展

  • Compiler Options
  • Interoperability Extensions
  • Device Query Extension

6、Cell Broadband Engine Extensions

      cell处理器用的不多,就不详细说了,使用的人可以查询其相关手册。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
欢迎来到 WebGPU 的世界 下
欢迎来到 WebGPU 的世界
7 0
无影云桌面和服务器有什么区别?阿里云无影电脑有什么优势?
阿里云推出无影云桌面,云桌面是一种安全高效的云上桌面服务,一般用于企业办公。云桌面支持快速便捷的桌面环境创建、部署、统一管控与运维。企业选择云桌面无需前期传统硬件投资,云桌面可以快速构建安全、高性能、低成本的企业桌面办公体系。云桌面和传统PC、VDI之间的区别:
19 0
欢迎来到 WebGPU 的世界 上
欢迎来到 WebGPU 的世界
10 0
飞天加速计划·高校学生在家实践——ECS服务器初体验
我当前是计算机专业研二学生,现就读于北京科技大学,主攻方向是计算机视觉(CV)中的图像分割,我们实验室也有GPU计算集群,不过在知乎偶然一次机会了解到阿里云的高校计划,从链接点进来后,经过一系列熟悉的操作,我慢慢了解到云服务器ECS这一概念。
8 0
常识普及-C语言和指针的本质
常识普及-C语言和指针的本质
32 0
阿里云云服务器ECS介绍 学习笔记
阿里云云服务器ECS介绍 学习笔记
7 0
图神经网络15-Text-Level-GNN:基于文本级GNN的文本分类模型
图神经网络15-Text-Level-GNN:基于文本级GNN的文本分类模型
5 0
图神经网络22-DGL实战:针对边分类任务的邻居采样训练方法
图神经网络22-DGL实战:针对边分类任务的邻居采样训练方法
5 0
一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.
一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.
4 0
+关注
迈克老狼1
算法相关技术专家
240
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
OceanBase 入门到实战教程
立即下载
阿里云图数据库GDB,加速开启“图智”未来.ppt
立即下载
实时数仓Hologres技术实战一本通2.0版(下)
立即下载