简化并行开发NVIDIA宣布CUDA 4.0

简介: NVIDIA公司今天宣布了新版GPU通用计算开发包CUDA 4.0,主要改进方向是简化并行编程,让更多开发人员能够将应用程序移植到GPU平台。CUDA 4.0的三大主要特性包括:GPUDirect 2.0技术GPUDirect 1.0主要用于高性能计算集群应用,方便不同节点之间的GPU相互联系,而GPUDirect 2.0则面向节点内应用,即多GPU并联系统。

NVIDIA公司今天宣布了新版GPU通用计算开发包CUDA 4.0,主要改进方向是简化并行编程,让更多开发人员能够将应用程序移植到GPU平台。

CUDA 4.0的三大主要特性包括:

GPUDirect 2.0技术GPUDirect 1.0主要用于高性能计算集群应用,方便不同节点之间的GPU相互联系,而GPUDirect 2.0则面向节点内应用,即多GPU并联系统。同一节点内的多块GPU可以不经过CPU、住内存,直接交换各自显存中的数据。

统一虚拟寻址(UVA)简化通用计算编程中的寻址空间设计,开发者不需要再考虑CPU和各个GPU各自的内存空间,而是整合为一个统一的内存寻址空间,大大简化并行编程。

Thrust C++模板高性能基元库能够提供一系列开源C++并行算法和数据结构,这些内容能够让C++开发人员更轻松的使用CUDA编程。与使用标准模板库(STL)以及线程构件(TBB)时相比,Thrust中并行排序等算法的速度可提升5至100倍。

除此之外,CUDA 4.0的新特性还包括:

MPI与CUDA应用程序相结合。当应用程序发出MPI收发调用指令时,例如OpenMPI等MPI软件可通过Infiniband接口自动收发显卡显存数据。

GPU多线程共享。多个CPU主线程能够在一颗GPU上共享运行环境。

单CPU线程共享多GPU。一个CPU主线程可以访问系统内的所有GPU。

全新的NPP图像与计算机视觉库。

新增、改良的功能

Visual Profiler中的自动性能分析功能

Cuda-gdb中的新特性以及新增了对Mac OS的支持

新增了对C++特性的支持,这些特性包括新建/删除以及虚拟等功能

新版GPU二进制反汇编程序

CUDA 4.0在硬件上需要Fermi架构GPU才能够提供完整支持,操作系统方面则仍然支持Windows、Mac OS X、Linux等系统。3月4日起,CUDA注册开发者计划会员将可以免费下载CUDA Tool Kit 4.0 RC发布候选版。

原文链接:http://news.mydrivers.com/1/187/187400.htm

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
并行计算 C++ 异构计算
Nvidia 并行计算架构 CUDA 分析(一)——CUDA 简介
    CUDA(Compute Unified Device Architecture,统一计算设备架构)是由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决复杂的计算问题。
5040 0
|
2月前
|
Kubernetes 调度 算法框架/工具
NVIDIA Triton系列02-功能与架构简介
本文介绍了NVIDIA Triton推理服务器的功能与架构,强调其不仅适用于大型服务类应用,还能广泛应用于各类推理场景。Triton支持多种模型格式、查询类型和部署方式,具备高效的模型管理和优化能力,确保高性能和系统稳定性。文章详细解析了Triton的主从架构,包括模型仓库、客户端应用、通信协议和推理服务器的核心功能模块。
84 1
NVIDIA Triton系列02-功能与架构简介
|
2月前
|
存储 并行计算 C++
NVIDIA Triton系列08-用户端其他特性
本文详细解析了NVIDIA Triton开源项目的image_client.py示例代码,涵盖指定通信协议(HTTP与gRPC)、调用异步模式与数据流处理、以及使用共享内存等核心功能,为开发者提供撰写Triton用户端应用的指导。通过具体代码示例,帮助读者理解如何高效利用Triton服务器进行模型推理。
49 1
NVIDIA Triton系列08-用户端其他特性
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
NVIDIA Triton系列03-开发资源说明
NVIDIA Triton 推理服务器是用于高效部署机器学习模型的开源工具。本文介绍了初学者如何通过官方文档和 GitHub 开源仓库获取开发资源,包括快速启动指南、生产文档、示例和反馈渠道。特别强调了核心仓库中的六个重要部分,涵盖服务器部署、核心功能、后端支持、客户端接口、模型分析和模型导航工具。这些资源有助于初学者全面了解和掌握 Triton 项目。
47 0
NVIDIA Triton系列03-开发资源说明
|
7月前
|
并行计算 API C++
GPU 硬件与 CUDA 程序开发工具
GPU 硬件与 CUDA 程序开发工具
138 0
|
自然语言处理 并行计算 PyTorch
PyTorch 1.13 正式发布:CUDA 升级、集成多个库、M1 芯片支持
PyTorch 1.13 正式发布:CUDA 升级、集成多个库、M1 芯片支持
482 0
|
编解码 并行计算 开发工具
FFmpeg引入NVIDIA硬件编解码扩展
FFmpeg引入NVIDIA硬件编解码扩展
851 0
|
测试技术 图形学 异构计算
Unity3D GPU Instancing测试
GPU instancing 很早就支持手机了(Android只支持Opengl ES 3.0),最近在调研这个就对它测试了一下。 如果是不动的物体勾选static静态合并批次(40-50帧率) 自定义Shader中勾选Enable GPU Instancing
2687 0