Ampere GPU 新特性

1. Async Copy

ampere_async_copy

异步拷贝cp.async(即指令LDGSTS)支持4/8/16字节单位的拷贝,其中:

  • 4/8字节单位的拷贝:L2 -> L1 -> SMEM
  • 16字节单位的拷贝(Bypass L1):L2 -> SMEM

明显的,16字节单位的拷贝性能最高。

另外,cp.async需要使用commit/wait指令来配合使用。

A. 资料




    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • NVIDIA GPU 架构:SP、SM 与 LSU 工作原理详解
  • al-folio 模板定制修改总结
  • al-folio 本地部署记录(Ubuntu 24.04)
  • C++ Traits
  • 道格拉斯-普克算法(Douglas–Peucker algorithm)