RAM:运存的调优需要根据厂商的指导文档在设备树文件<.dtsi文件>中进行调整,比如设定运存的时钟频率 memory-frequency、设定内存带宽 memory-bandwidth、内存时序 memory-timings
DQ节点,实现4-bit混合精度量化自适应量化策略:根据层敏感度分析(使用Hessian跟踪法),对注意力机制层保持FP16,前馈网络层实施4-bit量化显存优化技术栈:分层交换策略:通过Mbapp(Memory-bandwidth
KVCache生成的二象性 特征 Prefill (Prompt处理) Decode (Token生成) 并行度 高(全序列并行) 低(逐Token串行) 瓶颈类型 Compute-Bound (算力) Memory-Bandwidth
关键在于,解码阶段是 内存带宽密集型(Memory-Bandwidth Bound) 的。
其性能瓶颈在于从GPU高带宽内存(HBM)中读取巨大且不断增长的KV缓存所需的时间,因此是内存带宽密集型(memory-bandwidth bound) 的 2。