1.dim3是基于unit3定义的矢量类型,相当于3个unsigned int型组成的结构体。

2.通常,block的数量应该至少是处理核心的数量的几倍,才能有效的发挥GPU的处理能力。

3.关于shared memory的分配,有两种方式。其一就是静态分配,此时在调用kernel程序时是没有指定大小的,而是在kernel程序中通过_shared_来分配,注意此时一定要指明分配大小。其二是动态分配,也就是在调用kernel时指定了大小,那么在kernel程序中使用

external _shared_来分配,大小就是调用kernel时指定的。

4.CUDA中的kernel函数实质上是以block为单位执行的,同一个block中的线程需要共享数据,因此他们必须在同一份SM中发射,而block中的每一个thread则被发射到一个SP上执行。一个block必须被分配到一个SM中,但是一个SM中同一时刻可以有多个活动的线程块在等待执行。

5.??今天突然犯糊涂了,因为发现一个SM中也就8个SP,而一个SM中未必只含一个block,而一个block中可以最多有512个thread,还有线程束warp,这几个概念间是什么关系啊,就是说这个执行单元SP如何决定线程数??书上说warp中包含32个线程是因为每发射一条warp指令,SM中的8个SP会将指令执行4遍。  不明白!!!由此我都不明白到底线程是个什么东西了??

6.CUDA程序要尽量避免分支,并尽量做到warp内不分支,否则会导致性能急剧下降。

7.在进行CUDA编程之前,我觉得还需要知道电脑中支持CUDA的装置的数目以及一些性质,比如支持CUDA版本、global memory的大小、SM,SP的数量、以及支持的内存种类等等,这样就可以充分发挥装置的性能

8.在调用CUDA runtime API时如果能够用CUDA_SAFE_CALL(CUDA runtime API函数)形式会比较好,因为它是头文件cutil.h中用于检查程序运行错误的宏函数,这样当运行错误时会在窗口显示错误类型,对于程序的调试很有帮助。

9.CUT_EXIT()也是cutil头文件中的另一个宏函数,用以在程序运行完成后等待用户输入再关闭窗口,而默认控制台程序运行后,通常马上关闭。若希望直接退出,可以在运行main函数时加上"-noprompt"命令行选项。???请问这个命令行选项如何让添加。。