CUDA编程接口(二)------一十八般武器
------GPU的革命
4. 程序运行控制:像Stream,Event,Context, Module, Execution control这样的咱都把归类到运行管理的。这里也得分清楚有Runtime级别的,也有Driver级别的。
Stream:如果了解AGP时代的显卡,就知道在Device和Host之间进行数据交换的时候有作为中转数据的部分,叫着stream;发展到G8X以后就有了新的专门针对GPGPU统一设计的方便数据传输的Stream out的硬件设备。这个层的功能是将Vertex Shader和Pixel Shader(在G8X的设计中已经差不多不用把他们俩再分开,差不多统一起来)处理完成的数据输出给用户,由用户进行处理后再反馈给流水线继续处理。它可以直接读写本地显存。如果是内存对齐的,速度会更快,这个部分可以参考simpleStream的代码。
Event:和平时的大家在编程中使用的Event一个道理,都是起到通知的作用,创建一个事件,然后同步;Event在多线程编程中会经常遇到。
Context:上下文,什么叫叫上下文- -!(中文翻译叫上下文,实在的,俺觉得这个翻译不恰当,但是很多传统的书都这么翻译了,咱们也只能叫上下文)这里的Context和CPU里面使用的Context差不多,都是一个process里面需要用到的一些“资源”(系统资源:堆栈,内存……等等)。我倒觉得翻译为process包含的东东更为恰当。
Module:可以理解为linux里面的module意思;如果你不了解linux也不用担心,module就是一个个的专门针对Device的程序。知道很久很久以前的dos时代就有的.com文件吗?那个东东就像直接在CPU上可以调用的一个文件,加载到内存中就可以运行的。这里的module就是加载到Device上就可以运行。
Execution control:这个就是从驱动层面来控制线程怎么在Device上运行。
Stream和Event在Runtime API和Driver API中都有,函数接口也差不多。
Context, Module, Execution control就只有在Driver API层面才有。
上面的这些都没多少难点,其实API的讲解,一般都没多少难点,难点在于怎么能灵活的运用API,那就得通过多次的练习,多用API实践;其实有的时候也能发现API的不足,才会产生新的API。这里就不放具体的代码,代码可以参考编程手册上面。
5. 好了,这里就剩下OpenGL和Direct3D的接口函数了,他也有两个层次的API,有Runtime层次的,也有Driver层次的。Runtime和Driver层面都有调用的API,CUDA2.0在这里也做了一些优化,在内存交换方面。具体代码参考编程手册。
4.2.1 Function Type Qualifiers 函数类型
4.2.1.1 __device__
__device__ 规定的函数:
在device上执行。
只能在device上调用。
4.2.1.2 __global__
__global__ 定义了一个kernel函数:
在device上运行。
只能在host上调用
4.2.1.3 __host__
__host__定义的函数:
在host上运行,
只能在host上调用。
没有定义__host__,__device__或者__global__的函数等同于__host__函数,系统都会把函数编译成host函数。
另外,__host__定义可以和__device__定义一起使用,编译器会把这个函数编译为host和device通用的函数。
4.2.1.4 Restrictions (强调,限制)
__device__函数通常是inline,所以如果需要不inline 就需要加上uninline
__device__和__global__函数都不支持递归调用。
__device__和__global__函数都不能定义static变量在函数内部。
__device__和__global__函数不能使用可变参数。
__device__函数没有函数地址,也没有指向它的函数指针,但是__global__函数有。
__global__定义和__host__定义不能一起使用。
__global__函数必须是void返回类型。
任何调用__global__的函数都必须指明运行配置。(Section 4.2.3) 也就是线程kernel的调用方法。
__global__函数是异步调用的。在运行结束前就会返回。
__global__函数的参数通常是通过shared memory调用到Device中,最多是265bytes。