【参加CUDA线上训练营】——初识CUDA

简介: 初识CUDA

初识CUDA

1.异构计算

1.host CPU和内存
2.Device GPU和显存

2.CUDA的查看

一般显卡,服务器用 nvidia-smi查看相关参数
jetson设备 用jtop查看相关参数

3.程序编写

1.把数据用CPU处理好复制到gpu
2.执行芯片缓存数据,加载gpu程序并执行
3.将计算结果从GPU显存复制到CPU内存中
在这里插入图片描述

关键字:

__global__

将函数声明为内核,在device上执行,device上调用

__device__

执行空间说明符,声明一个函数,在device上执行,host和device上调用

__host__

声明了一个函数,执行和调用都是在host

CUDA编写在这里插入图片描述

int main()在host执行

__global__

在device上执行

CUDA程序的编译

cuda编译用nvcc
从.cu 编译为.o,再从.o编译为可执行文件

NVPROF

分析工具
分析命令:

nvprof -o out.nvvp a.exe
相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
机器学习/深度学习 人工智能 数据挖掘
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
|
网络架构
静态路由配置实验(超详细讲解+详细命令行)
本文详细的介绍静态路由配置实验,内含详细的实例解析,该文你值得拥有。
|
监控 网络架构
CAN-TP传输协议详解
CAN-TP传输协议详解
CAN-TP传输协议详解
|
10月前
|
机器学习/深度学习 算法 数据可视化
基于YOLOv8的无人机航拍树木目标检测系统|精准识别【含完整训练源码+部署教程】
本项目基于YOLOv8构建了一个支持无人机航拍图像的棕榈树目标检测系统,兼具高精度识别能力与友好的图形化交互界面。通过结合PyQt5,实现了图片、视频、摄像头等多种输入方式的检测体验,极大提升了项目的实用性与可扩展性。
基于YOLOv8的无人机航拍树木目标检测系统|精准识别【含完整训练源码+部署教程】
|
Linux Docker 容器
CentOS7使用阿里源安装最新版Docker
CentOS7使用阿里源安装最新版Docker
11185 0
|
人工智能 安全 Android开发
《鸿蒙系统AI优势:超越安卓,开启智能新篇》
鸿蒙系统在人工智能浪潮中展现出独特优势。其系统级原生智能简化开发,AI大模型接入提升智慧交互,微内核架构保障安全稳定,分布式架构实现多设备无缝协同,隐私保护措施全面,智能检测实时防护。相比安卓,鸿蒙在开发效率、智能性、安全性及用户体验上更具竞争力,为用户带来更智能、便捷、安全的使用体验。
1406 6
|
人工智能 自然语言处理 数据可视化
什么是AIGC?如何使用AIGC技术辅助办公?
2分钟了解AIGC技术及其如何提高日常办公效率!
4569 4
什么是AIGC?如何使用AIGC技术辅助办公?
|
人工智能 算法 数据格式
DeepSeek 开源周第二弹!DeepEP:专为 MoE 训练和推理设计的并行通信库
DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的通信库,支持高吞吐量、低延迟通信,优化 NVLink 和 RDMA 网络性能。
1940 3
|
网络协议 安全 API
你知道 HTTP 是如何使用 TCP 连接的吗?今天我就来告诉你!(上)
之前我写了篇关于 HTTP 的文章,文章中讲述了 HTTP 的特点,HTTP 的报文,HTTP 的请求方式等知识,接下来,深入了,我们就关于 HTTP 引发的面试题来进行入手,一起来看一下吧!
你知道 HTTP 是如何使用 TCP 连接的吗?今天我就来告诉你!(上)