《CUDA高性能并行计算》----第0章 本 书 导 读 0.1 什么是CUDA

简介: 欢迎阅读本书。本书的目标是让你亲身参与个人高性能计算(Personal High-Performance Computing,PHPC)。如果你跟随我们的CUDA世界之旅,只需一台基本的游戏级计算机,你就可以执行大规模并行计算并从中获益。

本 节 书 摘 来 自 华 章 出 版 社 《CUDA高性能并行计算》 一 书 中 的 第0章,第0.1节, 作 者 CUDA for Engineers: An Introduction to High-Performance Parallel Computing[美] 杜安·斯托尔蒂(Duane Storti)梅特·尤尔托卢(Mete Yurtoglu) 著,苏统华 项文成 李松泽 姚宇鹏 孙博文 译 , 更 多 章 节 内 容 可 以 访 问 云 栖 社 区 “华 章 计 算 机” 公 众 号 查 看。

第0章

本 书 导 读

欢迎阅读本书。本书的目标是让你亲身参与个人高性能计算(Personal High-Performance Computing,PHPC)。如果你跟随我们的CUDA世界之旅,只需一台基本的游戏级计算机,你就可以执行大规模并行计算并从中获益。这种规模的计算任务在几年之前是需要超级计算机才能完成的。本书包含的内容能够帮助你去阅读更高深的CUDA著作并开发自己的CUDA项目。
首先,介绍一下CUDA以及我们的教学策略。

0.1 什么是CUDA

CUDA是英伟达公司为促进高性能并行计算的普及所创建的支持并行计算的软硬件平台。CUDA的硬件方面涉及显卡上配备的一个或多个兼容CUDA的图形处理器(Graphics Processing Units,GPU)。英伟达CUDA工具箱软件则提供了基于C/C++编程语言的开发环境[1]。
CUDA使用的基于GPU方式的大规模并行计算也是很多最快和最节能超级计算机所采用的关键技术。核心的度量准则已经从每秒浮点计算次数(FLOPS)转变为每瓦电能的每秒浮点计算次数(FLOPS/watt,即计算的总量除以消耗的能量)。而GPU并行方式在每瓦电能的每秒浮点计算次数上具有优势。实际上,在2012年6月到2013年12月期间,全世界最节能的10大超级计算机从刚开始的完全基于IBM的绿色基因系统(配有PowerPC CPU)转变成基于英伟达公司的GPU系统[2]。在这个快速转换为GPU计算的过程中,计算能力与电能消耗的比率已经翻了两番,并在持续增长。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
机器学习/深度学习 人工智能 负载均衡
基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化
本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型(LLM)实现与训练优化上的创新工作。
|
网络协议 安全 Shell
如何在 SSH 客户端中强制使用 IPv4 或 IPv6?
如何在 SSH 客户端中强制使用 IPv4 或 IPv6?
2063 0
如何在 SSH 客户端中强制使用 IPv4 或 IPv6?
|
人工智能 并行计算 流计算
【AI系统】GPU 架构与 CUDA 关系
本文介绍了英伟达GPU硬件基础概念,重点解析了A100 GPU架构中的GPC、TPC、SM等组件及其功能。接着深入讲解了CUDA并行计算平台和编程模型,特别是CUDA线程层次结构。最后,文章探讨了如何根据CUDA核心数量、核心频率等因素计算GPU的算力峰值,这对于评估大模型训练的算力需求至关重要。
966 3
|
网络协议 网络安全 Python
电脑中 TCP/UDP 端口是否开放的测试:令人意想不到的神奇策略等你发现!
【8月更文挑战第19天】在网络管理和维护中,常需确认TCP/UDP端口是否开放以确保服务运行顺畅。端口如同计算机对外通信的“门”,TCP提供可靠连接,UDP则快速但无连接。测试端口是否开放的方法多样:可用`telnet`测试TCP端口,如`telnet localhost 80`;UDP测试较复杂,可用`nc`工具,如`nc -u -z localhost 53`。此外,也有在线工具可供选择,但需确保其安全性。
2659 1
|
存储 人工智能 编解码
阿里云gpu云服务器最新收费标准、活动价格与实例规格选择参考
随着人工智能、高性能计算等领域的快速发展,GPU云服务器因其强大的计算能力和灵活的资源分配方式,成为越来越多企业和个人用户的首选。2024年,阿里云针对GPU云服务器推出了新的收费标准及活动,gn6v、gn7i、gn6i等实例的gpu云服务器有优惠,本文为大家介绍2024年,阿里云gpu云服务器最新收费标准、活动价格与实例规格选择参考。
阿里云gpu云服务器最新收费标准、活动价格与实例规格选择参考
|
Ubuntu NoSQL API
Ubuntu下安装GTK的三种方法
我利用此方法成功在UBUNTU 10.04下安装GTK 2.20.1。 一、安装 1、安装gcc/g++/gdb/make 等基本编程工具 $sudo apt-get install build-essential 2、安装 libgtk2.
3723 0
|
网络协议 Linux Shell
Linux 网络配置企业级用法实战 | 学习笔记
快速学习 Linux 网络配置企业级用法实战。
Linux 网络配置企业级用法实战 | 学习笔记
|
机器学习/深度学习 并行计算 PyTorch
CUDA和显卡驱动以及pytorch版本的对应关系
CUDA和显卡驱动以及pytorch版本的对应关系
8526 0
|
容器 Cloud Native 缓存
降低 80% 的读写响应延迟!我们测评了 etcd 3.4 新特性(内含读写发展史)
作者 | 陈洁(墨封)  阿里云开发工程师 导读:etcd 作为 K8s 集群中的存储组件,读写性能方面会受到很多压力,而 etcd 3.4 中的新特性将有效缓解压力,本文将从 etcd 数据读写机制的发展历史着手,深入解读 etcd 3.4 新特性。
|
机器学习/深度学习 异构计算 并行计算
CUDNN学习笔记(1)
cuDNN概述NVIDIA cuDNN是一个GPU加速深层神经网络原语库。它提供了在DNN应用程序中频繁出现的例程的高度优化的实现: 卷积前馈和反馈, pooling前馈和反馈 softmax前馈和反馈 神经元前馈和反馈: 整流线性(ReLU)-sigmoid 双曲线正切(TANH) 张量转换函数 LRN,LCN和批量归一化前进和后退 cuDNN的卷积程序旨在提高性能,以最快的GEMM(矩阵乘法)为基础实现此类例程,同时使用更少的内存。
8392 0