HPC 零散笔记集合

1. 概念:带宽(Bandwidth) vs 延迟(Latency)

定义如下:

  • 带宽(Bandwidth):单位时间内能传输的数据量,通常以 GB/s 或 TB/s 表示。
  • 延迟(Latency):发出一次内存访问请求到数据返回所需的时间,通常以 ns(纳秒)或 时钟周期 表示。

在不同的应用场景下,强调的性能指标不同。比如在AI训练中,需要持续搬运大量数据,比如大量密集的GEMM计算,即此时是计算密集型。另外,CPU/GPU 的算力极强。这种情况下,带宽经常成为性能瓶颈。

而针对推理场景,由于其访问数据是随机访问的 KV-Cache,细粒度、低复用,带宽利用率低。这种情形下,等待数据的时间,即延迟成为性能瓶颈。推理与训练的对比如下:

对比项 训练 推理(Decode 阶段)
Batch size 大(数百~数千) 小(1~几十)
数据访问模式 连续大块读写 逐 token 随机小块访问
计算强度 高(Compute-bound) 低(Memory-bound)
KV Cache 访问 每步都要读取历史 KV

带宽 vs 延迟区别总结:

指标 带宽 延迟
衡量什么 数据吞吐量(多宽) 访问响应时间(多快)
单位 GB/s, TB/s ns, 时钟周期
决定因素 总线宽度、内存并行度 物理距离、内存层级
训练瓶颈 ✅ 主要瓶颈 次要(大 batch 可掩盖)
推理瓶颈 次要 ✅ 主要瓶颈(小 batch / decode)
代表硬件 HBM(大容量高带宽) 片上 SRAM(小容量低延迟)

2. nvidia-smi 工具使用

查询以及设置功耗、频率:

# 查询 GPU 功耗
nvidia-smi -q -d POWER

# 查询 GPU 支持的频率
nvidia-smi -q -d SUPPORTED_CLOCKS

# 设置 GPU 以最高速度运行
nvidia-smi -q -d PERFORMANCE

# 一秒间隔查询 GPU 使用情况
nvidia-smi dmon

# 一秒间隔查询 GPU 进程
nvidia-smi pmon

参考:nvidia-smi:控制您的GPU




    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • Fast DDS入门(On-Going)
  • NVIDIA GPU 架构:SP、SM 与 LSU 工作原理详解
  • al-folio 模板定制修改总结
  • al-folio 部署记录(Ubuntu 24.04)
  • Ubuntu 26.04 安装 Docker 和 Docker Compose