《CUDA C编程权威指南》——2.6 习题

简介:

本节书摘来自华章计算机《CUDA C编程权威指南》一书中的第2章,第2.6节,作者 [美] 马克斯·格罗斯曼(Max Grossman),译 颜成钢 殷建 李亮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6 习题

1.在文件sumArraysOnGPU-timer.cu中,设置block.x=1 023,重新编译并运行。与执行配置为block.x=1 024的运行结果进行比较,试着解释其区别和原因。

2.参考文件sumArraysOnGPU-timer.cu,设置block.x=256。新建一个内核,使得每个线程处理两个元素。将此结果和其他的执行配置进行比较。

3.参考文件sumMatrixOnGPU-2D-grid-2D-block.cu,并将它用于整数矩阵的加法运算中,获取最佳的执行配置。

4.参考文件sumMatrixOnGPU-2D-grid-1D-block.cu,新建一个内核,使得每个线程处理两个元素,获取最佳的执行配置。

5.借助程序checkDeviceInfor.cu,找到你的系统所支持的网格和块的最大尺寸。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章

相关实验场景

更多