文章

CUDA编程过程中的性能优化

1. 硬件结构及编程模型

硬件层次结构如下:

nvidia-hardware-hierarchy

硬件层次结构模型为:GPU device -> SM 矩阵 -> SP 矩阵。一个SP处理器(即GPU Core)包含一个浮点处理单元(有些GPU还包含一个Tensor Core)。

软件/硬件层次结构对应关系:

software-hardware-hierarchy

由于有两层结构,CUDA runtime将数据作了两层划分:gridblock,分别对应SM 矩阵的调度与SP 矩阵的调度。

其中,SP的调度以warp为单位,如32个线程组成一个warp,对应为硬件上的SM处理器中的完整计算单元。

学习资料

本文由作者按照 CC BY 4.0 进行授权