Ampere GPU 新特性

1. Async Copy

ampere_async_copy

异步拷贝cp.async(即指令LDGSTS)支持4/8/16字节单位的拷贝,其中:

  • 4/8字节单位的拷贝:L2 -> L1 -> SMEM
  • 16字节单位的拷贝(Bypass L1):L2 -> SMEM

明显的,16字节单位的拷贝性能最高。

另外,cp.async需要使用commit/wait指令来配合使用。

A. 资料




    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • 在Ubuntu上部署OpenMAIC
  • AI工具大全
  • Fast DDS入门(On-Going)
  • NVIDIA GPU 架构:SP、SM 与 LSU 工作原理详解
  • al-folio 模板定制修改总结