vLLM 最新版来了，修复 DeepSeek-V4 跑不稳、跑不快的问题

Ai学习的老章

发布于 2026-05-08 12:29:05

1.3K0

节前我连着写了三篇 vLLM × DeepSeek V4 的文章：

劳动节假期还没过完，vLLM 团队就给我加了道菜——0.20.1 紧急 patch 出炉了，主线就一句话：把 DSV4 跑不稳、跑不快的问题集中处理一遍

先把版本性质说清楚：v0.20.1 是 v0.20.0 的补丁版本，不是新功能堆料，而是围绕 DeepSeek V4 做稳定化 + 性能调优，外加一批通用 bug 修复

如果你正在本地跑 DSV4 / DSV4-Flash，强烈建议升级；如果你还在用 0.19.x 老老实实跑 V3，那这版意义不大，等 0.21 再说

这是这个 patch 的主线，我认真研究了 release notes ：

1. 模型支持收口

2. 性能优化（这部分含金量很高）

Multi-stream pre-attention GEMM（#41061）：把 attention 之前的矩阵乘法拆到多个 CUDA stream 上并发跑，解决了 GEMM 等 attention 卡 GPU 利用率的老问题
配套加了一个调优旋钮 VLLM_MULTI_STREAM_GEMM_TOKEN_THRESHOLD（#41443、#41526），还顺手把默认值调到了一个比较合理的点上——这就是写过《为何如此困难》那篇里抱怨"参数全靠玄学"的直接回应
FlashInfer one-sided 通信支持 BF16 + MXFP8 all-to-all（#40960）：MoE 跨 GPU 调度的核心通信路径，BF16/MXFP8 双精度都打通，多卡部署 V4 这下顺了
PTX cvt 指令加速 FP32→FP4 转换（#41015）：直接下到指令级别压榨硬件，FP4 推理路径吞吐能再上一档
head_compute_mix_kernel tile kernel 集成（#41255）：head 计算路径专门做了 kernel 优化

3. 一批要命的 Bug 修复

这部分尤其值得贴出来，因为不少都是社区里反复哀嚎过的：

随机卡死、显存莫名爆涨、tool call 偶发不返回、OOM 之后再起进程报 import error——这次基本都被一锅端了

不只是 V4，0.20.1 还顺手把几个影响所有用户的 bug 修了：

ROCm 用户也别走，这版对你们也有礼物

升级方式没变化，CUDA 13.0 + PyTorch 2.11 是 0.20.x 的标配，0.20.1 也跟着这个组合：

# 推荐用 uv
uv pip install --upgrade vllm

# 或者老老实实 pip
pip install --upgrade vllm

如果你还在 CUDA 12.9 的环境上，官方推荐的写法是：

uv pip install vllm --torch-backend=cu129

Docker 镜像：

docker pull vllm/vllm-openai:v0.20.1

升级前如果你跑过 0.20.0，记得清一下 ~/.cache/vllm 下面的 AOT 编译缓存，否则可能命中 #41090 那个 import error

❝一句话：正在跑 V4 的，立刻升；其他用户，按部就班升

具体到几类老板：

跑 DSV4-Flash 的小机型用户（比如我前面那篇 2×H20 96GB 的配置）：直接升，多 stream GEMM + FP4 转换加速对你们这种"卡显存又卡算力"的场景收益最大
多卡集群跑满血 V4：FlashInfer all-to-all 的 BF16/MXFP8 支持是核心收益，all-reduce 阶段的瓶颈被进一步打开
做 Agent / Function Calling 的：tool calls 类型转换那个 fix（#41198）你必须升，不然偶发返回缺字段会让上层应用一头雾水
还在 V3 / V3.2 阵营：升级风险低收益也不大，可以等 0.21 主线版本