
阅读收获
全文概览
在生成式AI浪潮下,企业与高校急于本地部署大模型,却屡屡卡在显存瓶颈:微调70B模型需1.4TB显存,传统方案逼迫采购数十张昂贵GPU,TCO高企;推理时,长上下文KV Cache爆显存,导致延迟飙升。你是否也面临“算力喂不饱、成本压垮身”的窘境?群联aiDAPTIV+横空出世,通过Flash Offload将NVMe SSD变身GPU显存延伸,单机4张GPU搞定集群级任务。更进一步,E28主控内置DSP引擎,实现“近数据计算”,卸载参数更新,性能飙升40%。这不仅是硬件解耦,更是存储厂商向AI算力上游的精准卡位。中小企业如何以低成本拥抱大模型?存储与计算的边界正被重塑。
👉 划线高亮 观点批注

图片的核心观点是:企业在本地环境(On-Premise)部署生成式AI时,主要面临着由底层计算与存储基础设施(尤其是内存/显存资源)引发的严重瓶颈。
这些限制贯穿于AI的“微调”和“推理”两个关键阶段。
IT基础设施的性能边界(特别是Memory容量与带宽)和高昂的硬件TCO(总拥有成本)是阻碍本地生成式AI大规模落地的最大绊脚石。

图片的核心观点是:通过底层架构的技术创新,打破硬件资源限制,从而大幅降低企业和高校在本地/边缘端部署生成式AI的门槛和成本。
传统的AI硬件架构中,算力(Compute)和显存/内存(DRAM)往往是强绑定的,处理大模型必须购买昂贵的高配服务器。
PPT中提出的解决方案是通过“解耦”思想和名为“aiDaptiv+”的存储管理技术,突破物理内存容量的瓶颈。这使得中小企业(SMB)和教育机构只需使用成本较低的工作站或小型服务器,就能独立且灵活地扩展资源,完成大模型的训练(微调)、推理以及长文本(Context Window / KV Cache)处理。最终实现“硬件自主可控、成本丰俭由人”,极大地提高了AI算力的普惠性和系统效率。

图片的核心观点是:通过将高速、高耐久度的NVMe SSD(固态硬盘)作为GPU显存的扩展(即Flash Offload技术),可以彻底打破传统AI训练中“显存容量决定集群规模”的硬件瓶颈。
在传统架构下,为了凑齐训练70B大模型所需的1.4TB庞大显存,企业不得不采购数十张昂贵的GPU,并搭建复杂的多节点集群和高速网络。
通过引入基于闪存卸载的架构(如群联的aiDAPTIV+),系统可以将无法装入显存的“数据分片”暂时卸载并缓存到高耐久度SSD中。这种创新的存储/内存层级管理技术,使得原本需要8台工作站、30张GPU组成的集群才能完成的训练任务,现在仅靠1台配备4张GPU的单体工作站即可实现,从而以极低的成本和功耗实现了大模型的本地化训练。

图片的核心观点是:群联的 aiDAPTIV+ 解决方案是一个“软硬协同设计(Hardware-Software Co-design)”的创新架构,旨在将专用的企业级闪存转化为 GPU 显存的延伸。
该方案由两部分组成:
这种软硬结合的方式打破了传统存储与内存的界限,使得系统能够将超出物理显存容量的数据平滑地卸载到 SSD 上,从而大幅降低大模型训练和推理的硬件门槛。
如何理解aiDAPTIVLink,是否和NVIDIA 的GDS类似?行业来看 通常是GPU计算厂商来主导中间件的设计,存储厂商来做这个事是否合适
aiDAPTIVLink 与 NVIDIA GDS 的核心区别在于设计目标:GDS 是“I/O 加速”技术,通过旁路 CPU 实现 SSD 到 GPU 显存的直接数据传输,以提升带宽、降低延迟,适用于训练数据的高速加载。而 aiDAPTIVLink 是“显存虚拟化扩容”技术,通过将模型参数、KV Cache 等卸载至 SSD 并在需要时预取,突破显存容量限制,实现大模型在有限 GPU 上的低成本部署。
由存储厂商(如群联)主导此类中间件设计是必要且合理的,原因在于:
这本质是存储行业基于对底层介质特性的深刻理解,向计算架构上游的一次精准卡位。

图片的核心观点是:群联推出了具备“计算存储(Computational Storage)”能力的下一代 AI 专属 SSD 主控芯片——E28,从硬件底层重塑了 AI 数据流的处理方式。
传统的 SSD 主控只负责数据的读写和存储管理。而这款 E28 芯片的革命性在于,它利用 6nm 工艺在主控内部直接集成了一个数学计算引擎(DSP)。这意味着 SSD 不再仅仅是一个“被动存储池”,而是变成了“协处理器”。它可以就近处理一些相对简单的 AI 运算任务(例如某些数据的预处理或轻量级更新),避免了这些数据在 SSD、CPU 和 GPU 之间来回搬运带来的极高 PCIe 带宽消耗和延迟(即消除了额外的 PCIe hop)。
这种“让计算靠近数据”的创新架构,不仅大幅减轻了 CPU 和 GPU 的负担(性能提升 40%),还能显著降低整体系统的功耗。
如何理解这里的DSP ,通常其他计算型存储方案是基于ASIC或FPGA方案来增强端侧计算能力?
核心是 “将低复杂度更新任务从 GPU 卸载”。在 AI 微调(如 LoRA)中,优化器状态更新涉及海量、简单且高度并行的张量运算(加、乘等)。DSP 架构天生为高效 MAC(乘累加) 和向量运算设计,无需处理复杂控制逻辑,能以极高能效比处理这类“低复杂度、高重复性”的数学运算,比对口。
方案采用标准 M.2 SSD(如 aiDAPTIV+ 的 PASCARI AI100E)。在 M.2 狭小空间与个位数瓦特功耗限制下,塞入发热大、成本高的独立 FPGA 不现实。群联 E28 主控采用 6nm 工艺,将 “Advanced math engine DSP” 作为 IP 模块内置集成到 SoC 内部,实现特定领域 ASIC 化。这未破坏标准 SSD 形态,并极佳地控制了成本与功耗,支持大规模量产。
高端 SSD 主控本就依赖强大 DSP 进行 LDPC(低密度奇偶校验) 软判决解码纠错。群联很可能是将用于信号处理的 DSP 架构深度增强与通用化,使其在闪存纠错间隙或通过专属通道,并行处理 aiDAPTIVLink 下发的 AI 张量计算任务,实现算力复用。
总结: 传统基于 FPGA的方案是“带存储的异构计算平台”,适合定制化科研。而群联 E28 内置 DSP 走的是 “原生存储主控的 AI 算力扩维” 路线。它以最低的硅面积与功耗代价,精准切中“大模型显存卸载与低复杂度预处理”痛点,是一套高度商业化、注重落地性价比的存储架构设计。

通过将 AI 微调中的“参数更新(Update)”环节卸载到存储端的 DSP 上运行,可以构建出高效的异步并行流水线,从而大幅提升 GPU 的利用率和整体训练速度。
在传统的 AI 训练中(上半图),GPU 必须串行完成前向传播、反向传播以及最后的参数更新,这导致 GPU 在处理相对低复杂度的更新任务时,其核心计算资源未能得到最大化利用。
而创新的 DSP 架构(下半图)将“参数更新(U)”这一步骤剥离,交由固态硬盘主控内建的 DSP 异步处理。这使得昂贵的 GPU 资源能够被迅速释放,去执行下一个批次的重度计算任务(F 和 B),最终通过这种近数据并行处理机制,实现了整体耗时缩短和 40% 的性能飞跃。
参数更新任务卸载到DSP端的价值分析
这是从存储架构角度解释最核心的一点。
在大模型微调(特别是像 ZeRO-Offload 这样的显存优化技术)中,由于 GPU 显存装不下所有的东西,系统通常会把最占空间的 “优化器状态(Optimizer States,通常是模型参数大小的 2 到 3 倍)” 存放在主机的内存或 SSD 中。

基于实测数据证明,在固态硬盘主控中引入 DSP 进行“参数更新卸载”,能够为各种规模的大模型微调带来极为可观的绝对性能提升。
数据表明,无论是高频更新(Basic)还是低频更新(Efficient)策略,DSP 都能有效打破系统瓶颈。特别值得注意的是,在基础微调模式下,对于像 Llama-70B 这样参数量巨大的模型,性能提升甚至可以达到近乎 1.5 倍(146%)。这从定量角度印证了前一张 PPT(异步并行流水线) 中提到的理论架构优势:即把低复杂度的“脏活累活”交给存储端的 DSP,让 GPU 专注算力输出,确实能实现“1+1>2”的系统级加速效果。

利用高速 SSD 充当大模型推理时的超大外部 KV Cache 池,能够以极低成本解决长文本(上下文窗口)推理时的显存瓶颈与延迟问题。
在生成式 AI 进行长对话或处理长文档时,系统需要维护庞大的 KV Cache(历史上下文状态)来保证生成的连贯性。传统架构受限于昂贵且容量有限的 GPU 显存,一旦显存爆满,系统只能丢弃早期的上下文(Eviction);如果后续生成又需要参考这些被丢弃的上下文,GPU 就必须从头重新计算这些 Token 的状态,这会引发严重的计算延迟。
群联的方案巧妙利用了高性能 NVMe SSD(如图中提供 7GB/s 读写带宽的盘)作为显存的溢出层。当 GPU 显存放不下时,历史 KV 状态会被“转移”而非“丢弃”到 SSD 中。

通过量化的 Benchmark 跑分数据,证明了群联 aiDAPTIV+ 架构在处理 LLM 长文本高并发推理时的巨大优越性。
在 220 个并发用户瞬间塞满 H200 这张顶级显卡 141GB 显存的极端压力测试下,传统的卸载框架(如 LMcache)成为了严重的系统累赘——由于 I/O 调度低效,从 SSD 或系统内存(DRAM)中读回 KV Cache 的速度,甚至还不如直接让 GPU 暴力重新计算来得快。(这一测试结果存疑,LMCache虽说核心创新在算法上,但不至于表现如此落后。)
相比之下,aiDAPTIV+ 技术展现出了惊人的调度效率。只要缓存命中率达到 50% 以上,使用普通 PCIe Gen4 SSD 进行卸载的性能就能显著超越 GPU 重算(Gen4 已经在PC端广泛部署)。更令人震撼的是,“aiDAPTIV+ SSD”的性能表现几乎完美咬合了“aiDAPTIV+ DRAM”的表现(624 vs 627 tok/s,100% 命中在现实场景中的可能性不大)。这直接论证了左侧图文的结论:物理带宽(7GB/s vs 28GB/s)在这里已经不是瓶颈,群联的中间件成功掩盖了 SSD 的物理延迟。这项技术切实达成了“用廉价 SSD 容量换取昂贵 GPU 算力”的商业目标。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
原文标题:Computational Storage Drive for LLM[1]
Notice:Human's prompt, Datasets by Gemini-3-Pro
#FMS25 #KVCache优化 ---【本文完】---