GPU通用计算API的变迁和趋势

简介:

在高性能计算、机器学习等现代应用领域中,GPU(Graphics Processing Unit)是占统治地位的计算引擎。GPU从早期的固化逻辑实现、到可编程、到今天的通用计算架构(GPGPU),其应用接口(API)随着功能和通用性的提升而变得越来越灵活和高效。

1. 图形渲染:DirectX 和 OpenGL

早期的GPU有浑名显卡也不冤枉。从软件角度来说,其逻辑架构基本上就是图形的三角形坐标变换、顶点照明、像素着色等一系列功能。因为逻辑固化、功能单纯,应用程序通过驱动接口可以直接执行这些功能,主要API就是较早版本的OpenGL和DirectX。

OpenGL源于曾经非常风光的SGI公司,然后演进成支持跨平台图形的工业标准,版本也从最初的1.x,到2.0,3.x,到今天的4.5【1】。目前Khronos Group(OpenGL标准化组织)正在推进OpenGL5.0。而DirectX是微软的windows平台上专用API。DirectX图形API最初的几个版本基本上是奋力直追OpenGL的features,直到DirectX 9.3c,微软才完成了实质上的超越。DirectX 9.3在features上大致相当于OpenGL3.3。(注意,OpenGL分为台式、嵌入式两个不同的profile,其版本之间的一一对应关系不甚明显)

随着图形算法的改进和对高质清晰画面的追求,GPU需要越来越强大的灵活性来支持纹理、材料属性、和精细度渲染,固化的逻辑显然无法跟得上这些需求。GPU实现真正意义上的可编程是支持高层渲染语言(shading language)。对应于OpenGL的高层语言是GL Shading Language(简称GLSL),对应于DirectX的高层语言是High Level Shading Language (或HLSL)。GPU的可编程流水线架构如下:

GPU-pipeline.png

由上图可见,在GPU的逻辑流水线上,只有两个阶段是可编程的,其它的仍然是固化的硬件支持。其中,一个可编程的stage是三角形顶点处理器(vertex processor),用户可以根据自己的需求编写适当的坐标变换、光线照明等复杂程序。另一个是像素处理器(fragment processor),实现更细节的渲染和纹理映射等。两个处理器对应的GPU程序分别叫做vertex shader 和fragment shader。在DirectX中,fragment shader叫做pixel shader。

不同的GPU厂商对上述的可编程逻辑单元有不同的的硬件实现。比如,英伟达(Nvidia)早期的GeForce 系列,ARM Mali GPU都采取了离散架构,即vertex processor和fragment processor是独立的物理处理单元。英伟达直到GeForce 8 系列的Tesla微架构,才改成了归一化的GPU架构【2】,即统一的处理器可以同时执行vertex shader 和fragment shader。ARM Mali Midgard和最近的Bifrost微架构也采用了归一化的实现【3】。不过,高通(Qualcomm)的Adreno GPU一开始就是归一化的微架构。

2. 通用计算:DirectX、OpenGL/OpenCL和Renderscript

在DirectX9.3 实现超越之后,微软在GPU API方面一直处于领跑地位。只是DirectX 10时运不济,几乎随着Windows Vista灰飞烟灭。但之后的DirectX 11改头换面,并率先推出了细分曲面(tessellation)和通用计算(compute)API,实现了从GPU 到GPGPU(general-purpose GPU)的飞跃【4】。

pipelines_2.png

虽然从API的角度,通用计算处理器似乎是一个独立的单元,但一般的GPU物理实现都是重复利用流水线上的可编程单元(归一化的处理器),在执行通用计算GPU程序(叫做compute shader)时忽略其它的硬件功能。Vertex shader,fragment shader,和compute shader采用归一化的编程模型。

因为DirectX是微软的专用API,OpenGL社区也不甘落后,很快就推出相应的OpenGL通用计算和细分曲面功能。为了有别于DirectX,OpenGL的tessellation 程序叫做tessellation control shader和tessellation evaluation shader,分别对应于DirectX的Hull shader和Domain shader。OpenGL ES(嵌入式系统)在3.1版本引进了通用计算,但直到去年的3.2版本才正式加入tessellation功能(在此之前由Google的扩展包得以维系)。

真正跨平台的通用计算API是Khronos的OpenCL1.x 和随后的OpenCL2.x。感觉比较别扭的是,同一个Khronos Group标准化组织,却同时有两套通用计算API。简单的理解是,OpenCL是为大计算准备的(heavy-duty compute),比如在GPU上的大规模高性能科学计算。OpenGL compute是轻量级的,适合于简单的图形、图像处理等任务。例如,在模拟粒子系统时,用OpenGL通用计算API来计算速度、位置、势能等,再快速切换到渲染模式,把整个粒子系统显示出来。相比之下,OpenCL需要比较复杂的set-up,而且和图形渲染之间的相互切换(inter-op)也有较高的执行开销。

需要强调的是,OpenCL虽然是从GPU领域诞生出来,但通用计算框架远不止适用于GPU。同样可以应用在CPU,DSP,FPGA,或其它异构计算的体系架构中。OpenCL在跨平台的功能移植性(functional portability)方面是很好的,但是其性能移植性(performance portibility)往往并不理想。

另一个算是常用、但并不被大多数人知道的通用计算API是Google推出的RenderScript。Google一开始是希望能像DirectX一样,同时支持图形渲染和通用计算。但很快发现,图形渲染抵不过OpenGL,便丢下了渲染,专注于通用计算。所以有人开玩笑说,RenderScript既不是render也不是script。目前,RenderScript主要用在安卓系统中,只有Google自己的应用在使用。但随着下一代通用计算API的发展,RenderScript前途未卜。

3. 下一代API:一场“几乎零开销驱动”的竞争

阿里的许多业务app在手机端上执行,对GPU的使用一般都是轻量级的。但随着业务功能的增强,特别是AI和机器学习应用的普及,在端上的计算越来越多。之前的图形渲染、通用计算API,不管是OpenCL和OpenGL,还是Renderscript,驱动开销(driver overhead)都比较高。所以提高端上GPU功效、增加电池续航能力是移动GPU的当务之急。即使是在数据中心,能降低驱动程序的开销,提高服务器CPU/GPU效率,对能源、硬件资源的节省也可以带来可观的效益。所以近两三年来,工业界在研究如何降低GPU驱动上投入了大量的人力物力。几大巨头纷纷加入了所谓的“几乎零开销驱动”(almost zero overhead driver,AZOD)的竞争。

  • 苹果的Metal API,主要用在iOS和MacOS上
  • 微软的DirectX 12,当然还是聚集在windows系统中
  • 超微(AMD)推出了Mantle
  • Google 也有自己的版本(出于公司的秘密,隐去其名)
  • Khronos Group跨平台的Vulkan

经过一番混战和讨价还价,竞争的结果就是AMD和Google各自把自己的ideas和框架工作捐给了Khronos,融合、演变成了现在的Vulkan 1.0。笑到最后的是苹果Metal和微软DirectX 12专用API,以及Khronos Group的跨平台通用Vulkan API。实质上,这三个API的features都是大同小异。

当然,AZOD并不能魔术般的让驱动程序开销一扫而光。他们在实现层面上主要集中在以下几点:

  • 减少GPU在命令序列中的状态更新、同步等开销
  • 重复使用命令包,并允许增量更新(incremental update)
  • 实现多个渲染目标的融合,减少GPU数据的导入、导出
  • non-binding 纹理等资源的使用
  • 把内存管理、多线程管理等繁琐的任务推到用户层;用户本来就有更好的全局观来管理资源的生命周期
  • 把GPU程序(shaders)的编译工作在线下预处理,降低在线编译的开销

再稍微介绍一下Vulkan:
如果想理清Vulkan和OpenGL的关系,可以把Vulkan看成是下一代的OpenGL,即OpenGL 5.0。在Vulkan的命名上,除了希腊神话中的强大火神外,还有5的意思(罗马数字V)。同样,Vulkan也有一个附带的编程语言,叫做SPIR-V (standard portable intermediate representation,SPIR)。V既是5,也是针对Vulkan。不过,SPIR-V在语言的定义上,远超出了图形的范畴,有能力表述通用计算、甚至C++的功能。现在有不少开源项目是基于SPIR-V,以得到更好的移植性。

4. 后记

上文提到,Khronos Group工业标准有两套通用计算API,OpenCL和OpenGL(加上一个新的Vulkan)。这两套API到底是什么关系呢?正所谓,天下大势,分久必合。目前的解决思路主要有两个:

  • 淘汰OpenCL,把其功能和某些特性引入到Vulkan中
  • OpenCL作为上层API,用Vulkan在底层来实现OpenCL的功能

第二个想法与C++/C的关系有点像。C++可以作为与C无关的独立语言,但C++的功能往往可以用C来具体实现。虽然Khronos 标准组织还没有对外公开最后的答案,感觉这个方案可能会通过。

旁白

本文有意回避了把CUDA作为通用计算API的讨论。严格意义上讲,CUDA是一个GPU的软件生态系统,且只限于英伟达的GPU架构。所以和DirectX或RenderScript还是有区别的。

参考文献

  1. https://www.khronos.org/opengl/wiki/History_of_OpenGL
  2. https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units
  3. The Bifrost GPU architecture and the ARM Mali-G71 GPU
  4. https://en.wikipedia.org/wiki/DirectX
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
4月前
|
人工智能 并行计算 PyTorch
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
269 0
|
3月前
|
JavaScript 前端开发 测试技术
【vue实战项目】通用管理系统:api封装、404页
【vue实战项目】通用管理系统:api封装、404页
34 3
|
4月前
|
前端开发 JavaScript API
TS 中的类型验算,高级通用 API 实现
这篇文章介绍了一些常用的类型通用API封装,包括TS内置类型和关键字的使用,以及TS compiler内部实现的类型。文章截取了一些常用的类型定义和API示例,如Partial、Required、Readonly、NonNullable、Parameters等。还介绍了一些常用的TS关键字,如extends、infer、keyof、typeof、in等。此外,文章还提供了一些实现示例,如Optional API、GetOptional API和UnionToIntersection API。该文章会不断更新。
|
2月前
|
SQL 并行计算 API
Dask是一个用于并行计算的Python库,它提供了类似于Pandas和NumPy的API,但能够在大型数据集上进行并行计算。
Dask是一个用于并行计算的Python库,它提供了类似于Pandas和NumPy的API,但能够在大型数据集上进行并行计算。
|
2月前
|
并行计算 API 数据处理
GPU(图形处理单元)因其强大的并行计算能力而备受关注。与传统的CPU相比,GPU在处理大规模数据密集型任务时具有显著的优势。
GPU(图形处理单元)因其强大的并行计算能力而备受关注。与传统的CPU相比,GPU在处理大规模数据密集型任务时具有显著的优势。
|
2月前
|
机器学习/深度学习 TensorFlow API
Keras是一个高层神经网络API,由Python编写,并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验,能够用最少的代码实现想法,并且能够方便地在CPU和GPU上运行。
Keras是一个高层神经网络API,由Python编写,并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验,能够用最少的代码实现想法,并且能够方便地在CPU和GPU上运行。
|
3月前
|
机器学习/深度学习 并行计算 PyTorch
【从零开始学习深度学习】20. Pytorch中如何让参数与模型在GPU上进行计算
【从零开始学习深度学习】20. Pytorch中如何让参数与模型在GPU上进行计算
|
3月前
|
缓存 Serverless API
函数计算产品使用问题之GPU实例留运行但未进行 GPU 计算,是否还会计费
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
4月前
|
弹性计算 云计算 虚拟化
GPU云服务器_GPU云计算_异构计算_弹性计算-阿里云
阿里云提供多种GPU服务器,包括NVIDIA V100、T4、A10和A100计算卡,其中gn6i实例享有最高3折优惠。包年包月价格如:gn6v实例(16G V100)从4685.20元/月起,gn6i实例(16G T4)从1878.40元/月起。学生无特定GPU服务器优惠,但新用户有折扣活动。GPU服务器计费模式有包年包月和按小时计费,按需选择。详细价格及活动规则见官方链接。
72 0
GPU云服务器_GPU云计算_异构计算_弹性计算-阿里云