首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏鸿蒙开发笔记

    OpenHarmony标准系统开机时长优化

    RAM:运存的调优需要根据厂商的指导文档在设备树文件<.dtsi文件>中进行调整,比如设定运存的时钟频率 memory-frequency、设定内存带宽 memory-bandwidth、内存时序 memory-timings

    51120编辑于 2025-04-29
  • 来自专栏AI分享

    GPU实战:低成本运行多模态大模型

    DQ节点,实现4-bit混合精度量化自适应量化策略:根据层敏感度分析(使用Hessian跟踪法),对注意力机制层保持FP16,前馈网络层实施4-bit量化显存优化技术栈:分层交换策略:通过Mbapp(Memory-bandwidth

    4.5K11编辑于 2025-04-14
  • 来自专栏存储公众号:王知鱼

    大模型推理的KVCache小IO瓶颈解析

    KVCache生成的二象性 特征 Prefill (Prompt处理) Decode (Token生成) 并行度 高(全序列并行) 低(逐Token串行) 瓶颈类型 Compute-Bound (算力) Memory-Bandwidth

    61810编辑于 2026-03-09
  • LLM 系列(六):模型推理篇

    关键在于,解码阶段是 内存带宽密集型(Memory-Bandwidth Bound) 的。

    3.4K24编辑于 2025-08-04
  • 来自专栏存储公众号:王知鱼

    KV缓存:LLM推理的“内存怪兽”与优化之道

    其性能瓶颈在于从GPU高带宽内存(HBM)中读取巨大且不断增长的KV缓存所需的时间,因此是内存带宽密集型(memory-bandwidth bound) 的 2。

    4.5K10编辑于 2025-07-27
领券