1请描述GPU的工作原理和架构,在可编程渲染管线中的作用

2请简述GPU渲染流程中,各个可编程着色器的作用

 

 

 

  1. 请描述GPU的工作原理和架构,在可编程渲染管线中的作用

从硬件来说:

gpu kernel最多多少个线程同时进行 gpu最大线程_CUDA


 SP:最基本的处理单元,streaming processor,也称为CUDA core。最后具体的指令和任务都是在SP上处理的。GPU进行并行计算,也就是很多个SP同时做处理。SP的术语现在已经有点弱化了,可以直接用thread来代替,一个sp对应一个thread。

 SM:多个SP加上其他的一些资源组成一个streaming multiprocessor。也叫GPU大核,其他资源如:warp scheduler,register(寄存器),shared memory等。SM可以看做GPU的心脏(对比CPU核心),register和shared memory是SM的稀缺资源。CUDA将这些资源分配给所有驻留在SM中的threads。因此,这些有限的资源就使每个SM中active warps有非常严格的限制,也就限制了并行能力。

Warpwarp是SM调度和执行的基础概念,通常一个SM中的SP(thread)会分成几个warp(也就是SP在SM中是进行分组的,物理上进行的分组),一般每一个WARP中有32个thread.这个WARP中的32个thread(sp)是一起工作的,执行相同的指令,如果没有这么多thread需要工作,那么这个WARP中的一些thread(sp)是不工作的

 

着色器程序的执行都是在SM上完成的,如上图所示,sm包含32个运算核心 ,16个LD/ST(load/store)模块来加载和存储数据,4个SFU(Special function units)执行特殊数学运算(sin、cos、log等),128KB寄存器,64KB L1缓存,全局内存缓存,Tex纹理读取单元,TextureCache纹理缓存,polyMorph Engine多边形引擎负责属性装配(attribute Setup)、顶点拉取(VertexFetch)、曲面细分、栅格化(这个模块可以理解专门处理顶点相关的东西),最后就是Warp Schedulers这个模块负责warp调度,一个warp由32个线程组成,warp调度器的指令通过Dispatch Units送到Core执行。

gpu kernel最多多少个线程同时进行 gpu最大线程_API_02

 

 

 

从软件上来看:

CUDA是一种新的操作GPU计算的硬件和软件架构,它将GPU视作一个数据并行计算设备,而且无需把这些计算映射到图形API。操作系统的多任务机制可以同时管理CUDA访问GPU和图形程序的运行库,其计算特性支持利用CUDA直观地编写GPU核心程序。

gpu kernel最多多少个线程同时进行 gpu最大线程_CUDA_03


 

 

CUDA程序构架分为两部分:Host和Device。一般而言,Host指的是CPU,Device指的是GPU。在CUDA程序构架中,主程序还是由 CPU 来执行,而当遇到数据并行处理的部分,CUDA 就会将程序编译成 GPU 能执行的程序,并传送到GPU。而这个程序在CUDA里称做核(kernel)。CUDA允许程序员定义称为核的C语言函数,从而扩展了 C 语言,在调用此类函数时,它将由N个不同的CUDA线程并行执行N次,这与普通的C语言函数只执行一次的方式不同。执行核的每个线程都会被分配一个独特的线程ID,可通过内置的threadIdx变量在内核中访问此ID。

gpu kernel最多多少个线程同时进行 gpu最大线程_着色器_04


 

 

  1. 请简述GPU渲染流程中,各个可编程着色器的作用

            各个可编程着色器不多说了

            以DirectX图形API来说:

            DirectX7是固定管线的API,DirectX8加入了顶点着色器,DirectX9加入了像素着色器,DirectX10加入了几何着色器,DirectX11加入了细分着色器,计算着色器,DirectX12 API变得low level化