目录
- 一、前言
- 二、CUDA背景知识
- 三、用GPU输出Hello World
- 四、总结
- 五、参考
一、前言
- 在计算密集型应用中,往往有很多并行数据的程序段,我们期望使用特殊架构的硬件加速器提升这部分程序段的执行速度,GPU可以说是最为常见的硬件加速器。今天介绍我们学习新的编程语言时都会写的一个程序
Hello world!——CUDA版
。
二、CUDA背景知识
- CUDA是一种通用的并行计算平台和编程模型,它利用NVIDIA GPU中的并行计算引擎能更有效地解决复杂的计算问题。CUDA C是标准ANSI C的一个扩展,它带有的少数语言扩展功能使异构编程成为可能,同时也能用过API来管理设备、内存和其他任务。
- 一个CUDA程序包含了以下两部分的混合。
- 在CPU上运行的主机代码
- 在GPU上运行的设备代码
- NVIDIA 的CUDA nvcc编译器在编译过程中将设备代码从主机代码中分离出来。主机代码是标准的C代码,使用C编译器进行编译。设备代码,也就是核函数,是用扩展的带有标记数据并行函数关键字的CUDA C语言编写的。设备代码通过nvcc进行编译。在链接阶段,在内核程序调用和显示GPU设备操作中添加CUDA运行时库。
nvcc编译器以LLVM开源编译系统为基础的。
本文在Linux上进行演示。
三、用GPU输出Hello World
- 检查环境和硬件是否正确安装。
首先检查是否安装了NVIDIA加速卡。
ls -l /dev/nv*
代表存在加速卡。或者使用nvidia-smi
指令查看是否有NVIDIA加速卡,可以看到当前使用的机器上装有一个Tesla V100加速卡。
接下来检查nvcc编译器是否正确安装。
nvcc -V
不出意外应该会输出类似的提示👇
如果提示bash: nvcc: command not found
,说明你的编译器没有安装或者正确安装,参考这里进行安装
- 到这里就可以写我们的第一个CUDA 程序了。
我们编写一个C语言程序输出Hello World
,代码如下:
#include<stdio.h>
int main(void){
// hello from cpu
printf("Hello World From CPU!\n");
return 0;
}
将代码保存至hello.cu
中,然后使用nvcc编译器编译,并执行生成的可执行文件。
接下来编写一个内核函数,命名为helloFromGPU,用它来输出字符串Hello World from GPU !
。
__global__ void helloFromGPU(void){
printf("Hello World From GPU!\n");
}
修饰符__global__
告诉编译器这个函数会从CPU上调用在GPU上执行。用下面的代码启动内核函数。
helloFromGPU<<<1, 10>>>();
三重尖括号代表从主线程到设备端代码的调用。一个内核函数通过一组线程来执行所有线程执行相同的代码。尖括号中的参数是执行配置,用来说明使用多少线程执行内核函数,上面我们使用10个GPU线程被调用。Hello World
完整程序的如下所示:
#include<stdio.h>
__global__ void helloFromGPU(void){
printf("Hello World From GPU!\n");
}
int main(void){
// hello from cpu
printf("Hello World From CPU!\n");
// hello from gpu
helloFromGPU<<<1, 10>>>();
cudaDeviceReset();
return 0;
}
函数cudaDeviceReset()
用来显式地释放和清空当前进程中与当前设备有关的所有资源。
使用nvcc编译完整版代码,并执行生成的可执行文件,结果如下:
该程序自CPU端输出一条语句,GPU端输出十条语句,其中每个线程输出一条,可以自由调整尖括号中的参数,看看会有什么变化。
四、总结
以上就是新手的第一个CUDA C程序了,只是简单实现了主机端调用设备端代码 ,GPU最强的计算还没使用呢,之后的博客再对比多核CPU和GPU的计算性能差异。如果本文能给你带来帮助的话,点个赞鼓励一下作者吧!
五、参考
[1] 《CUDA C编程入门》