CUDA实践指南(八)

简介:

优化CUDA应用程序:
在每轮应用程序并行化完成后,开发人员可以转向优化实施以提高性能。 由于可以考虑许多可能的优化,对应用程序的需求有充分的了解可以帮助尽可能平滑地实现流程。 但是,与APOD整体一样,程序优化是一个迭代过程(找出优化的机会,应用和测试优化,验证实现的加速并重复),这意味着程序员不需要花费大量 在看到很好的加速之前记住大部分可能的优化策略。 相反,策略可以在学习时逐步应用。
优化可以应用于各个层面,从重叠的数据传输和计算一直到精细调整浮点运算序列。 可用的分析工具对于指导此过程非常有用,因为它们可以帮助为开发人员的优化工作提供次佳的操作方法。
性能指标:
在尝试优化CUDA代码时,需要知道如何准确衡量性能并了解带宽在性能测量中的作用。 本章讨论如何使用CPU定时器和CUDA事件正确测量性能。 然后探讨带宽如何影响性能指标以及如何减轻它带来的一些挑战。
Timing:
CUDA调用和内核执行可以使用CPU或GPU定时器来定时。
用CPU计时器:
任何CPU计时器都可以用来测量CUDA调用或内核执行所用的时间。 各种CPU时序方法的细节超出了本文档的范围,但开发人员应始终注意其定时调用提供的分辨率。
在使用CPU定时器时,记住许多CUDA API函数是异步的,这一点很重要。 也就是说,他们在完成工作之前将控制权返回给调用CPU线程。 所有内核启动都是异步的,因为内存复制函数的名称上带有Async后缀。 因此,要准确测量某个特定调用或CUDA调用序列的运行时间,需要在启动和停止CPU计时器之前立即调用cudaDeviceSynchronize()来同步CPU线程与GPU。 cudaDeviceSynchronize()阻塞调用CPU线程,直到线程先前发出的所有CUDA调用都完成为止。
尽管也可以使CPU线程与GPU上的特定流或事件同步,但这些同步功能不适用于除默认流以外的流中的计时代码。 cudaStreamSynchronize()阻塞CPU线程,直到先前发送到给定流中的所有CUDA调用都完成为止。 cudaEventSynchronize()阻塞,直到GPU记录特定流中的给定事件。 由于驱动程序可能会交错执行来自其他非默认流的CUDA调用,因此其他流中的调用可能会包含在该时序中。
由于默认流0在设备上表现出序列化行为(默认流中的操作只有在任何流中的所有前面的调用都完成之后才能开始;并且任何流中的后续操作都不能开始,直到完成为止) 这些功能可以在默认流中可靠地用于定时。
CPU到GPU同步点意味着GPU处理流水线中存在停顿,因此应谨慎使用,以尽量减少其对性能的影响。
用GPU计时器:
CUDA事件API提供创建和销毁事件,记录事件(通过时间戳)以及将时间戳差异转换为浮点值(以毫秒为单位)的调用。 如何使用CUDA事件计时代码说明了它们的使用。

cudaEvent_t start, stop;
float time;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord( start, 0 );
kernel<<<grid,threads>>> ( d_odata, d_idata, size_x, size_y,
NUM_REPS);
cudaEventRecord( stop, 0 );
cudaEventSynchronize( stop );
cudaEventElapsedTime( &time, start, stop );
cudaEventDestroy( start );
cudaEventDestroy( stop );

这里使用cudaEventRecord()将开始和停止事件放入默认流,即流0中。设备将在事件到达流中时记录该事件的时间戳。 cudaEventElapsedTime()函数返回记录开始和停止事件之间的时间间隔。 该值以毫秒为单位表示并具有大约半微秒的分辨率。 与本清单中的其他调用一样,它们的具体操作,参数和返回值在CUDA工具包参考手册中进行了描述。 请注意,时序是在GPU时钟上测量的,因此时序分辨率与操作系统无关。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
数据采集 监控 安全
数字孪生与金融:风险管理的新工具
数字孪生技术通过构建物理实体或系统的虚拟模型,实现对金融市场的实时监控、客户行为分析、市场风险预测及业务流程优化,为金融机构提供了全新的风险管理工具,提升了风险管理的精准度和效率。
|
10月前
|
监控 架构师 安全
企业架构(EA)项目开发综合指南
企业架构(EA)是一种全面的方法,用于对齐企业的业务目标与其 IT 战略和资源。EA 涵盖了企业的各个层面,包括业务流程、信息流、应用系统和技术基础设施。本指南将详细探讨 EA 项目开发的关键步骤、[EA](https://www.visual-paradigm.com/features/enterprise-architecture-diagram-tool/) 与 TOGAF、ArchiMate 以及其他建模图(如 BPMN 和 UML)之间的关系,以及推荐 Visual Paradigm 作为 EA 团队的最佳解决方案。
462 3
|
Cloud Native Java 关系型数据库
【阿里云云原生专栏】构建云原生应用:基于Spring Boot与阿里云服务的全栈指南
【5月更文挑战第21天】构建云原生应用是企业数字化转型的关键,本文提供了一份基于Spring Boot和阿里云的全栈指南。涵盖从阿里云账号注册、ECS与Docker搭建,到Spring Boot项目创建、业务代码编写和部署。此外,还介绍了如何集成阿里云OSS存储、RDS数据库服务以及ACK容器服务,助力打造高效、可扩展和易管理的云原生应用。
1127 3
|
监控 数据可视化 测试技术
云效流水线 Flow 评测:助力企业高效完成 CICD 全流程
云效流水线 Flow 评测显示其在CI/CD领域表现出色,尤其适合新人上手。具备直观的可视化编辑和Yaml化选项,丰富的文档教程,以及全面的功能,如多代码源支持、自动化测试、稳定部署及阿里云服务集成。此外,Flow性能稳定,监控功能强,且高度可扩展,支持插件和API集成。相比其他工具,Flow在成本、功能和性能上有竞争优势,特别适合与阿里云生态结合的团队。作为一款易用且性价比高的工具,Flow值得推荐给各类企业。
1043 12
|
JSON IDE API
Android AAB 格式介绍
Google 自8月起要求 Google Play 上架的应用必须采用 AAB 的新格式,这是否是西方敌对势力为了打压鸿蒙而出台又一策略?
1641 0
|
存储 运维 监控
八大生产故障 排查思路(通用版)
八大生产故障 排查思路(通用版)
|
机器学习/深度学习 传感器 人工智能
鸽群优化算法(Pigeon-inspired Optimization algorithm, PIO)附matlab代码
鸽群优化算法(Pigeon-inspired Optimization algorithm, PIO)附matlab代码
|
存储 缓存 弹性计算
阿里云轻量应用服务器及u1、c7、g7、r7和gpu云服务器价格
阿里云服务器最新价格更新,轻量应用服务器2核2G 108元1年,每天仅需0.3元,2核4G 298元1年,每天只要0.81元;通用算力u1实例云服务器731.52 元1年起、计算型c7实例云服务器1718.61元1年起;通用型g7实例云服务器2117.95元1年起;内存型r7实例云服务器2715.74元1年起;gpu云服务器3368.00元1个月起。本文为大家汇总了阿里云轻量应用服务器及u1/c7/g7/r7和gpu云服务器最新优惠价格,以供参考。
796 0
阿里云轻量应用服务器及u1、c7、g7、r7和gpu云服务器价格
|
存储 NoSQL 安全
Redis 攻击方法总结(三)
Redis 攻击方法总结
1056 0
Redis 攻击方法总结(三)