
节前我连着写了三篇 vLLM × DeepSeek V4 的文章:
劳动节假期还没过完,vLLM 团队就给我加了道菜——0.20.1 紧急 patch 出炉了,主线就一句话:把 DSV4 跑不稳、跑不快的问题集中处理一遍
先把版本性质说清楚:v0.20.1 是 v0.20.0 的补丁版本,不是新功能堆料,而是围绕 DeepSeek V4 做稳定化 + 性能调优,外加一批通用 bug 修复
如果你正在本地跑 DSV4 / DSV4-Flash,强烈建议升级;如果你还在用 0.19.x 老老实实跑 V3,那这版意义不大,等 0.21 再说

这是这个 patch 的主线,我认真研究了 release notes :
1. 模型支持收口
2. 性能优化(这部分含金量很高)
VLLM_MULTI_STREAM_GEMM_TOKEN_THRESHOLD(#41443、#41526),还顺手把默认值调到了一个比较合理的点上——这就是写过《为何如此困难》那篇里抱怨"参数全靠玄学"的直接回应cvt 指令加速 FP32→FP4 转换(#41015):直接下到指令级别压榨硬件,FP4 推理路径吞吐能再上一档3. 一批要命的 Bug 修复
这部分尤其值得贴出来,因为不少都是社区里反复哀嚎过的:
随机卡死、显存莫名爆涨、tool call 偶发不返回、OOM 之后再起进程报 import error——这次基本都被一锅端了
不只是 V4,0.20.1 还顺手把几个影响所有用户的 bug 修了:
max_num_batched_token 没被 CUDA graph 正确捕获(#40734)num_gpu_blocks_override 在 max_model_len 校验里没被算进去(#41069)——手动调显存块数的老板请抬头expandable_segments(#40812)input_ids 和 expert_map 参数修复(#41165)ROCm 用户也别走,这版对你们也有礼物
升级方式没变化,CUDA 13.0 + PyTorch 2.11 是 0.20.x 的标配,0.20.1 也跟着这个组合:
# 推荐用 uv
uv pip install --upgrade vllm
# 或者老老实实 pip
pip install --upgrade vllm
如果你还在 CUDA 12.9 的环境上,官方推荐的写法是:
uv pip install vllm --torch-backend=cu129
Docker 镜像:
docker pull vllm/vllm-openai:v0.20.1
升级前如果你跑过 0.20.0,记得清一下 ~/.cache/vllm 下面的 AOT 编译缓存,否则可能命中 #41090 那个 import error
❝一句话:正在跑 V4 的,立刻升;其他用户,按部就班升
具体到几类老板:
看完这次 release notes 我有一个挺直接的感受:vLLM 团队对 DSV4 的投入是真的舍得给资源——从 0.20.0 的"基础支持"到 0.20.1 的"性能 + 稳定性双升",前后才隔了不到两周
这也侧面印证了一件事:DeepSeek V4 这条路线,已经成为开源推理框架第一优先级要支持好的目标模型,没有之一
至于 V4 部署本身那些"硬件门槛高、配置玄学多"的根本性难题,0.20.1 解决了一部分,但远远没全解决。等我假期后摸到 H20 集群,再做一轮升级前后的对比实测,到时候再来跟老板们汇报
#vLLM #DeepSeekV4 #大模型部署 #推理引擎 #开源
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!