搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏鸿蒙开发笔记
OpenHarmony标准系统开机时长优化
RAM：运存的调优需要根据厂商的指导文档在设备树文件<.dtsi文件>中进行调整，比如设定运存的时钟频率 memory-frequency、设定内存带宽 memory-bandwidth、内存时序 memory-timings
51120编辑于 2025-04-29
来自专栏AI分享
GPU实战：低成本运行多模态大模型
DQ节点，实现4-bit混合精度量化自适应量化策略：根据层敏感度分析（使用Hessian跟踪法），对注意力机制层保持FP16，前馈网络层实施4-bit量化显存优化技术栈：分层交换策略：通过Mbapp（Memory-bandwidth
4.5K11编辑于 2025-04-14
来自专栏存储公众号：王知鱼
大模型推理的KVCache小IO瓶颈解析
KVCache生成的二象性特征 Prefill (Prompt处理) Decode (Token生成) 并行度高（全序列并行）低（逐Token串行）瓶颈类型 Compute-Bound (算力) Memory-Bandwidth
61810编辑于 2026-03-09
LLM 系列（六）：模型推理篇
关键在于，解码阶段是内存带宽密集型（Memory-Bandwidth Bound）的。
3.4K24编辑于 2025-08-04
来自专栏存储公众号：王知鱼
KV缓存：LLM推理的“内存怪兽”与优化之道
其性能瓶颈在于从GPU高带宽内存（HBM）中读取巨大且不断增长的KV缓存所需的时间，因此是内存带宽密集型（memory-bandwidth bound）的 2。
4.5K10编辑于 2025-07-27