备案控制台

开发者社区华章出版社文章正文

《OpenACC并行程序设计：性能优化实践指南》一 3.8　优化GPU内核

2017-09-11 1058

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章出版社《OpenACC并行程序设计：性能优化实践指南》一书中的第3章，第3.8节，作者：[美] 罗布·法伯（Rob Farber），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.8　优化GPU内核

现在GPU大部分时刻都是忙碌的，那么是否可以减少GPU计算时间？如图3-9所示，使用函数摘要只显示CUDA函数信息。可以看出，主要耗时的内核是“moveParticles”，第二耗时内核是“cptCurrent”。两个内核的共同部分是都需要遍历粒子列表，先积累对粒子的总电流影响（cptCurrent），然后更新粒子的位置（moveParticles）。可见，原来使用的链表数据结构，即一个C结构存放粒子信息（存放的位置、速度和电荷），这种数据结构适合CPU实现，但并不适合邻近线程需要合并内存访问的GPU。把粒子数据结构变成256个浮点数组的结构链表后，如图3-10所示，性能改善很显著。这也归功于把MPI通信从同步改成异步。

screenshot

文章标签：

GPU云服务器

异构计算

关键词：

GPU云服务器性能优化

GPU云服务器优化

GPU云服务器内核

优化GPU云服务器

openacc并行程序设计：性能优化实践指南GPU云服务器

相关实践学习

部署Stable Diffusion玩转AI绘画（GPU云服务器）

本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作，开启AIGC盲盒。

华章计算机

目录

相关文章

弹性计算-小弹

|

7月前

|

人工智能缓存调度

技术改变AI发展：RDMA能优化吗？GDR性能提升方案（GPU底层技术系列二）

随着人工智能（AI）的迅速发展，越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术，可以让使用pcie标准的gpu和第三方设备进行直接的数据交换，而不涉及CPU。

弹性计算-小弹

136259 6 8

智能引擎技术

|

7月前

|

并行计算 TensorFlow 调度

推荐场景GPU优化的探索与实践：CUDA Graph与多流并行的比较与分析

RTP 系统(即 Rank Service)，是一个面向搜索和推荐的 ranking 需求，支持多种模型的在线 inference 服务，是阿里智能引擎团队沉淀多年的技术产品。今年，团队在推荐场景的GPU性能优化上又做了新尝试——在RTP上集成了Multi Stream，改变了TensorFlow的单流机制，让多流的执行并行，作为增加GPU并行度的另一种选择。本文详细介绍与比较了CUDA Graph与多流并行这两个方案，以及团队的实践成果与心得。

智能引擎技术

2103 1 2

有路有乔-六月

|

2月前

|

机器学习/深度学习并行计算算法

GPU加速与代码性能优化：挖掘计算潜力的深度探索

【10月更文挑战第20天】GPU加速与代码性能优化：挖掘计算潜力的深度探索

有路有乔-六月

61 1 1

1744812029540769

|

存储人工智能芯片

多GPU训练大型模型：资源分配与优化技巧｜英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe

在人工智能领域，大型模型因其强大的预测能力和泛化性能而备受瞩目。然而，随着模型规模的不断扩大，计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后，中国AI计算行业面临前所未有的困境。为了解决这个问题，英伟达将针对中国市场推出新的AI芯片，以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型，并分析英伟达禁令对中国AI计算行业的影响。

1744812029540769

1600 0 0

弹性计算-百晓生

|

7月前

|

机器学习/深度学习人工智能弹性计算

阿里云林立翔：基于阿里云GPU的AIGC小规模训练优化方案

阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲，围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。

弹性计算-百晓生

66385 76 78

算精通

|

7月前

|

存储人工智能 Kubernetes

阿里云ACK助力GPU成本优化，实现灵活管理

摘要：本文将介绍如何在阿里云容器服务ACK中，利用cGPU技术，共享GPU算力，提高GPU利用率，降低TCO。

算精通

174 2 2

Echo_Wish

|

7月前

|

机器学习/深度学习并行计算算法

掌握XGBoost：GPU 加速与性能优化

掌握XGBoost：GPU 加速与性能优化

Echo_Wish

1231 0 0

弹性计算-小弹

|

7月前

|

人工智能弹性计算并行计算

技术改变AI发展：CUDA Graph优化的底层原理分析（GPU底层技术系列一）

随着人工智能（AI）的迅速发展，越来越多的应用需要巨大的GPU计算资源。CUDA是一种并行计算平台和编程模型，由Nvidia推出，可利用GPU的强大处理能力进行加速计算。

弹性计算-小弹

104333 1 1

1744812029540769

|

7月前

|

存储人工智能缓存

探索AIGC未来：CPU源码优化、多GPU编程与中国算力瓶颈与发展

近年来，AIGC的技术取得了长足的进步，其中最为重要的技术之一是基于源代码的CPU调优，可以有效地提高人工智能模型的训练速度和效率，从而加快了人工智能的应用进程。同时，多GPU编程技术也在不断发展，大大提高人工智能模型的计算能力，更好地满足实际应用的需求。本文将分析AIGC的最新进展，深入探讨以上话题，以及中国算力产业的瓶颈和趋势。

1744812029540769

366 1 1

猫头虎

|

机器学习/深度学习 TensorFlow Go

美团视觉GPU推理服务部署架构优化实战

美团视觉GPU推理服务部署架构优化实战

猫头虎

196 0 0

华章出版社

热门文章

最新文章

【AI系统】GPU 工作原理

【AI系统】为什么 GPU 适用于 AI

阿里云服务器架构有啥区别？X86计算、Arm、GPU异构、裸金属和高性能计算对比

重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

【AI系统】GPU 架构与 CUDA 关系

【AI系统】GPU 架构回顾（从2018年-2024年）

阿里云GPU云服务器优惠收费标准,GPU服务器优缺点与适用场景详解

【AI系统】GPU 架构回顾（从2010年-2017年）

【AI系统】GPU 基础

CPU 和 GPU到底有啥区别？

阿里云轻量应用服务器、云服务器、gpu云服务器最新收费标准参考

【Docker 专栏】Docker 与 GPU 加速应用的结合

Serverless 应用引擎产品使用之在阿里云函数计算中使用包含GPU的实例并且镜像超过10GB了如何解决

Kubernetes 调用 GPU解析

CPU、GPU、TPU、NPU等到底是什么？

GPU计算资源智能调度：过去、现在和未来

Kubernetes（K8s）与虚拟GPU（vGPU）协同：实现GPU资源的高效管理与利用

TensorFlow与GPU加速：提升深度学习性能

Anaconda+Cuda+Cudnn+Pytorch（GPU版）+Pycharm+Win11深度学习环境配置

相关课程

更多

云原生AI套件：一键训练大模型及部署GPU共享推理服务

AMD 全新 EPYC，引领下一代数据分析强劲性能

AMD全新EPYC，引领下一代数据分析强劲性能

云数据库优化十大典型案例

相关电子书

更多

DeepStream: GPU加速海量视频数据智能处理

阿里巴巴高性能GPU架构与应用

GPU在超大规模深度学习中的发展和应用

相关实验场景

更多

通过GPU云服务器训练GPT-2

通过GPU云服务器生成AIGC 3D模型

在云上部署ChatGLM2-6B大模型（GPU版）

高性能特性体验：ePQ 的详解与实战

下一篇

手把手教你白嫖阿里云服务器(免费领服务器)