CUDA编程过程中的性能优化
1. 硬件结构及编程模型
硬件层次结构如下:
硬件层次结构模型为:GPU device
-> SM 矩阵
-> SP 矩阵
。一个SP
处理器(即GPU Core
)包含一个浮点处理单元(有些GPU
还包含一个Tensor Core
)。
软件/硬件层次结构对应关系:
由于有两层结构,CUDA runtime
将数据作了两层划分:grid
,block
,分别对应SM 矩阵
的调度与SP 矩阵
的调度。
其中,SP
的调度以warp
为单位,如32个线程组成一个warp
,对应为硬件上的SM
处理器中的完整计算单元。
学习资料
本文由作者按照 CC BY 4.0 进行授权