



2026年4月24日,DeepSeek-AI正式发布DeepSeek-V4系列预览版本,该系列包含两款强大的混合专家(Mixture-of-Experts, MoE)语言模型——DeepSeek-V4-Pro与DeepSeek-V4-Flash,同时配套推出DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base两个基础版本,全方位覆盖不同推理需求场景。作为开源大模型领域的重要更新,DeepSeek-V4系列在架构优化、推理效率、任务适配性上实现多重突破,支持百万token上下文长度,在代码、数学、推理、智能体等多类任务中表现亮眼,甚至在部分基准测试中逼近领先闭源模型,成为当前开源大模型领域的标杆之作。本文将对DeepSeek-V4全系列模型进行全面、详细的拆解,涵盖模型简介、架构升级、下载方式、评测结果、使用方法等核心内容,助力开发者快速掌握模型特性、高效上手部署。
DeepSeek-V4系列是DeepSeek-AI推出的新一代MoE架构语言模型,核心定位是“高效能、长上下文、多场景适配”,预览版本包含四款核心模型,分别为DeepSeek-V4-Flash、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro、DeepSeek-V4-Pro-Base,其中DeepSeek-V4-Flash与DeepSeek-V4-Pro为核心功能版本,Base版本则提供基础模型支持,满足不同开发者的轻量化或定制化需求。
两款核心功能模型(DeepSeek-V4-Flash与DeepSeek-V4-Pro)均采用混合专家(MoE)架构,支持百万token(1M)的上下文长度,这意味着模型能够处理超长文本输入,适配长文档分析、多轮对话、代码审计等复杂场景。二者的核心差异集中在参数量与性能定位上:DeepSeek-V4-Pro总参数量达1.6T,激活参数量49B,主打高性能、全场景覆盖;DeepSeek-V4-Flash总参数量284B,激活参数量13B,主打轻量化、高效推理,在控制资源占用的同时兼顾性能表现。
值得注意的是,DeepSeek-V4-Pro与DeepSeek-V4-Flash均支持三种推理强度模式,可根据实际任务需求灵活切换,同时推出Max推理模式(DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max),进一步挖掘模型推理潜力,其中DeepSeek-V4-Pro-Max稳居当前最佳开源模型之列,大幅缩小了与领先闭源模型的差距。
DeepSeek-V4系列在架构设计与训练优化上引入多项关键创新,核心目标是提升长上下文处理效率、训练稳定性与模型表达能力,具体升级点如下:
为解决长上下文场景下推理效率低、资源占用高的痛点,DeepSeek-V4系列设计了混合注意力机制,创新性地结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA),实现了长上下文处理效率的显著提升。
该架构的核心优势的在于“精准压缩、高效计算”:通过CSA与HCA的协同作用,在保留关键信息的前提下,对注意力权重进行合理压缩,减少冗余计算。官方测试数据显示,在百万token上下文场景下,DeepSeek-V4-Pro相比上一代模型DeepSeek-V3.2,仅需27%的单token推理FLOPs(浮点运算次数)和10%的KV缓存,极大降低了长上下文推理的资源消耗,让百万token级别的长文本处理变得更加高效、可行。
在传统残差连接的基础上,DeepSeek-V4系列引入了流形约束超连接(Manifold-Constrained Hyper-Connections, mHC),进一步优化模型的跨层信号传播机制。传统残差连接虽能缓解梯度消失问题,但在深层模型中仍存在信号衰减、传播不稳定的问题,影响模型的表达能力与训练效果。
mHC通过引入流形约束,对跨层信号传播进行规范与增强,在保留模型原有表达能力的同时,显著提升了跨层信号传播的稳定性,让深层模型的训练更加顺畅,有效避免了训练过程中出现的梯度爆炸、模型退化等问题,为模型性能的提升奠定了架构基础。
训练优化器是大模型训练的核心组件,直接影响模型的收敛速度、训练稳定性与最终性能。DeepSeek-V4系列采用全新的Muon优化器,相比传统优化器(如Adam、SGD),Muon优化器在收敛速度与训练稳定性上实现双重提升。
通过优化学习率调度、梯度更新策略,Muon优化器能够让模型在训练过程中更快收敛,减少训练迭代次数,同时有效抑制训练过程中的波动,提升训练稳定性,确保模型能够充分学习训练数据中的特征,进一步挖掘模型的性能潜力。
DeepSeek-V4系列的两款核心模型(DeepSeek-V4-Flash与DeepSeek-V4-Pro)均在超过32T高质量、多样化token上进行了预训练,涵盖文本、代码、数学、知识问答等多个领域,确保模型具备扎实的基础能力。
在预训练基础上,模型经过全面的后训练流程,采用两阶段范式,精准培养模型的领域专家能力:第一阶段,通过监督微调(SFT)和基于GRPO的强化学习(RL),独立培养模型在不同领域的专业能力,让模型在代码、数学、推理等特定领域形成核心优势;第二阶段,通过在线策略蒸馏(on-policy distillation)对模型进行统一整合,将多个领域的专业能力融合到单一模型中,实现“全领域覆盖、各领域精通”的效果,让模型能够适配多样化的任务需求。
DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最大推理努力模式,经过针对性优化,显著提升了开源模型的知识能力,稳居当前最佳开源模型之列。该模式下,模型在代码基准测试中达到顶尖水平,在推理与智能体任务上大幅缩小了与领先闭源模型之间的差距,成为开源模型中少有的能够与闭源模型同台竞技的存在。
与此同时,DeepSeek-V4-Flash-Max作为DeepSeek-V4-Flash的Max推理模式,在拥有更大推理预算的情况下,可实现与Pro版本相当的推理性能,能够满足中高端推理需求;但由于其参数规模较小(总参数量284B,激活参数量13B),在纯知识类任务和最复杂的智能体工作流上,性能略逊于Pro版本,适合对资源占用有要求、推理难度适中的场景。
DeepSeek-V4系列四款模型均支持通过HuggingFace与ModelScope两个平台下载,其中DeepSeek-V4-Flash-Base与DeepSeek-V4-Pro-Base还支持通过ModelScope SDK和Git命令下载,具体下载信息与操作步骤如下,开发者可根据自身需求选择合适的下载方式。
以下是DeepSeek-V4系列四款模型的核心参数与下载地址汇总,清晰呈现各模型的差异与下载渠道,方便开发者快速查询:
模型名称 | 总参数量 | 激活参数量 | 上下文长度 | 精度 | 下载渠道 |
|---|---|---|---|---|---|
DeepSeek-V4-Flash-Base | 284B | 13B | 1M | FP8 混合 | HuggingFace | ModelScope |
DeepSeek-V4-Flash | 284B | 13B | 1M | FP4 + FP8 混合* | HuggingFace | ModelScope |
DeepSeek-V4-Pro-Base | 1.6T | 49B | 1M | FP8 混合 | HuggingFace | ModelScope |
DeepSeek-V4-Pro | 1.6T | 49B | 1M | FP4 + FP8 混合* | HuggingFace | ModelScope |
注:FP4 + FP8 混合精度说明:MoE专家参数使用FP4精度;其余大部分参数使用FP8精度,该精度设置在保证模型性能的前提下,进一步降低了模型的存储与推理资源占用。
当前DeepSeek-V4-Flash-Base的贡献者未提供更详细的模型介绍,模型文件和权重可通过“模型文件”页面获取,也可通过以下两种方式直接下载:
首先需要安装ModelScope SDK,然后通过代码调用实现模型下载,具体步骤如下:
# 安装ModelScope
pip install modelscope
# SDK模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/DeepSeek-V4-Flash-Base')执行上述代码后,模型将自动下载到指定目录(默认目录可通过ModelScope配置调整),下载完成后即可用于本地部署与推理。
通过Git命令直接克隆模型仓库,获取模型文件与权重,具体命令如下:
# Git模型下载
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Flash-Base.git克隆完成后,进入对应目录即可获取模型的全部文件与权重,适合需要手动配置模型参数的开发者。
与DeepSeek-V4-Flash-Base类似,DeepSeek-V4-Pro-Base未提供详细模型介绍,模型文件和权重可通过以下两种方式下载:
安装ModelScope SDK后,通过以下代码下载模型:
# 安装ModelScope(若已安装可跳过)
pip install modelscope
# SDK模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/DeepSeek-V4-Pro-Base')使用Git命令克隆模型仓库,具体命令如下:
# Git模型下载
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Pro-Base.gitDeepSeek-V4-Flash与DeepSeek-V4-Pro可直接通过HuggingFace或ModelScope平台下载,访问对应平台的模型页面,按照平台提示操作即可完成下载。其中,ModelScope平台的模型地址分别为:
- DeepSeek-V4-Flash:可通过ModelScope搜索“deepseek-ai/DeepSeek-V4-Flash”获取下载链接;
- DeepSeek-V4-Pro:可通过ModelScope搜索“deepseek-ai/DeepSeek-V4-Pro”获取下载链接。
下载完成后,模型文件可直接用于本地推理、微调等任务,无需额外的权重转换(若有特殊需求,可参考后续“本地运行”部分的说明)。
为全面验证DeepSeek-V4系列模型的性能,官方进行了多维度的基准测试,涵盖基础模型评测、指令微调模型评测、与前沿模型对比、不同推理模式对比四个维度,测试数据全面、详实,能够清晰反映各模型的性能表现与优势场景。以下是完整的评测结果解析:
基础模型评测主要针对DeepSeek-V3.2-Base、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base三款模型,从架构、参数量、世界知识、语言与推理、代码与数学、长上下文六个维度进行测试,具体结果如下表所示:
基准测试(指标) | 样本数(Shots) | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|---|
架构 | - | MoE | MoE | MoE |
激活参数量 | - | 37B | 13B | 49B |
总参数量 | - | 671B | 284B | 1.6T |
世界知识 | ||||
AGIEval (EM) | 0-shot | 80.1 | 82.6 | 83.1 |
MMLU (EM) | 5-shot | 87.8 | 88.7 | 90.1 |
MMLU-Redux (EM) | 5-shot | 87.5 | 89.4 | 90.8 |
MMLU-Pro (EM) | 5-shot | 65.5 | 68.3 | 73.5 |
MMMLU (EM) | 5-shot | 87.9 | 88.8 | 90.3 |
C-Eval (EM) | 5-shot | 90.4 | 92.1 | 93.1 |
CMMLU (EM) | 5-shot | 88.9 | 90.4 | 90.8 |
MultiLoKo (EM) | 5-shot | 38.7 | 42.2 | 51.1 |
Simple-QA verified (EM) | 25-shot | 28.3 | 30.1 | 55.2 |
SuperGPQA (EM) | 5-shot | 45.0 | 46.5 | 53.9 |
FACTS Parametric (EM) | 25-shot | 27.1 | 33.9 | 62.6 |
TriviaQA (EM) | 5-shot | 83.3 | 82.8 | 85.6 |
语言与推理 | ||||
BBH (EM) | 3-shot | 87.6 | 86.9 | 87.5 |
DROP (F1) | 1-shot | 88.2 | 88.6 | 88.7 |
HellaSwag (EM) | 0-shot | 86.4 | 85.7 | 88.0 |
WinoGrande (EM) | 0-shot | 78.9 | 79.5 | 81.5 |
CLUEWSC (EM) | 5-shot | 83.5 | 82.2 | 85.2 |
代码与数学 | ||||
BigCodeBench (Pass@1) | 3-shot | 63.9 | 56.8 | 59.2 |
HumanEval (Pass@1) | 0-shot | 62.8 | 69.5 | 76.8 |
GSM8K (EM) | 8-shot | 91.1 | 90.8 | 92.6 |
MATH (EM) | 4-shot | 60.5 | 57.4 | 64.5 |
MGSM (EM) | 8-shot | 81.3 | 85.7 | 84.4 |
CMath (EM) | 3-shot | 92.6 | 93.6 | 90.9 |
长上下文 | ||||
LongBench-V2 (EM) | 1-shot | 40.2 | 44.7 | 51.5 |
从基础模型评测结果可以看出:
1. 参数量优势:DeepSeek-V4-Pro-Base总参数量(1.6T)和激活参数量(49B)远超另外两款模型,为其性能优势奠定了基础;DeepSeek-V4-Flash-Base虽然激活参数量(13B)最小,但整体性能优于上一代模型DeepSeek-V3.2-Base,体现了架构优化的价值。
2. 世界知识表现:三款模型中,DeepSeek-V4-Pro-Base在所有世界知识类基准测试中均表现最佳,尤其是Simple-QA verified(55.2)、FACTS Parametric(62.6)等指标,大幅领先于另外两款模型;DeepSeek-V4-Flash-Base在C-Eval(92.1)、CMMLU(90.4)等中文知识测试中表现突出,适合中文场景应用。
3. 语言与推理表现:三款模型整体表现接近,DeepSeek-V4-Pro-Base在HellaSwag(88.0)、WinoGrande(81.5)等推理类指标中略胜一筹,DeepSeek-V4-Flash-Base在DROP(88.6)指标中表现最佳,体现了轻量化模型的推理优势。
4. 代码与数学表现:DeepSeek-V4-Pro-Base在HumanEval(76.8)、MATH(64.5)等核心指标中表现最佳,适合复杂代码与数学任务;DeepSeek-V4-Flash-Base在CMath(93.6)指标中表现突出,在基础数学任务中具备优势;DeepSeek-V3.2-Base在BigCodeBench(63.9)指标中领先,但其整体代码能力不及DeepSeek-V4系列模型。
5. 长上下文表现:DeepSeek-V4-Pro-Base(51.5)> DeepSeek-V4-Flash-Base(44.7)> DeepSeek-V3.2-Base(40.2),充分体现了DeepSeek-V4系列在长上下文处理上的优化效果,尤其是Pro版本,能够更好地适配超长文本场景。
DeepSeek-V4-Pro和DeepSeek-V4-Flash均支持三种推理强度模式,不同模式针对不同的任务场景设计,具备不同的特点与回复格式,开发者可根据任务需求灵活选择,具体如下表所示:
推理模式 | 特点 | 典型应用场景 | 回复格式 |
|---|---|---|---|
Non-think | 快速、直观的响应 | 日常例行任务、低风险决策 | 总结 |
Think High | 有意识的逻辑分析,速度较慢但更准确 | 复杂问题求解、规划 | <think> 思考过程 总结 |
Think Max | 将推理能力发挥到极致 | 探索模型推理能力的边界 | 特殊系统提示 + <think> 思考过程 总结 |
三种推理模式的核心差异在于“推理深度”与“响应速度”的平衡:Non-think模式追求高效,适合简单、高频的日常任务;Think High模式兼顾速度与准确性,适合中等复杂度的推理与规划任务;Think Max模式追求极致准确性,适合复杂、高风险的任务,能够充分挖掘模型的推理潜力。
为验证DeepSeek-V4-Pro-Max的性能水平,官方将其与当前主流前沿模型(Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High等)进行对比测试,涵盖知识与推理、长上下文、智能体能力三个维度,具体结果如下表所示:
基准测试(指标) | Opus-4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High | K2.6 Thinking | GLM-5.1 Thinking | DS-V4-Pro Max |
|---|---|---|---|---|---|---|
知识与推理 | ||||||
MMLU-Pro (EM) | 89.1 | 87.5 | 91.0 | 87.1 | 86.0 | 87.5 |
SimpleQA-Verified (Pass@1) | 46.2 | 45.3 | 75.6 | 36.9 | 38.1 | 57.9 |
Chinese-SimpleQA (Pass@1) | 76.4 | 76.8 | 85.9 | 75.9 | 75.0 | 84.4 |
GPQA Diamond (Pass@1) | 91.3 | 93.0 | 94.3 | 90.5 | 86.2 | 90.1 |
HLE (Pass@1) | 40.0 | 39.8 | 44.4 | 36.4 | 34.7 | 37.7 |
LiveCodeBench (Pass@1) | 88.8 | - | 91.7 | 89.6 | - | 93.5 |
Codeforces (Rating) | - | 3168 | 3052 | - | - | 3206 |
HMMT 2026 Feb (Pass@1) | 96.2 | 97.7 | 94.7 | 92.7 | 89.4 | 95.2 |
IMOAnswerBench (Pass@1) | 75.3 | 91.4 | 81.0 | 86.0 | 83.8 | 89.8 |
Apex (Pass@1) | 34.5 | 54.1 | 60.9 | 24.0 | 11.5 | 38.3 |
Apex Shortlist (Pass@1) | 85.9 | 78.1 | 89.1 | 75.5 | 72.4 | 90.2 |
长上下文 | ||||||
MRCR 1M (MMR) | 92.9 | - | 76.3 | - | - | 83.5 |
CorpusQA 1M (ACC) | 71.7 | - | 53.8 | - | - | 62.0 |
智能体能力 | ||||||
Terminal Bench 2.0 (Acc) | 65.4 | 75.1 | 68.5 | 66.7 | 63.5 | 67.9 |
SWE Verified (Resolved) | 80.8 | - | 80.6 | 80.2 | - | 80.6 |
SWE Pro (Resolved) | 57.3 | 57.7 | 54.2 | 58.6 | 58.4 | 55.4 |
SWE Multilingual (Resolved) | 77.5 | - | - | 76.7 | 73.3 | 76.2 |
BrowseComp (Pass@1) | 83.7 | 82.7 | 85.9 | 83.2 | 79.3 | 83.4 |
HLE w/ tools (Pass@1) | 53.1 | 52.0 | 51.6 | 54.0 | 50.4 | 48.2 |
GDPval-AA (Elo) | 1619 | 1674 | 1314 | 1482 | 1535 | 1554 |
MCPAtlas Public (Pass@1) | 73.8 | 67.2 | 69.2 | 66.6 | 71.8 | 73.6 |
Toolathlon (Pass@1) | 47.2 | 54.6 | 48.8 | 50.0 | 40.7 | 51.8 |
从对比结果可以看出,DeepSeek-V4-Pro-Max在多个维度表现亮眼,核心优势如下:
1. 知识与推理:在Chinese-SimpleQA(84.4)、LiveCodeBench(93.5)、Codeforces(3206)、Apex Shortlist(90.2)等指标中表现突出,其中LiveCodeBench和Codeforces指标超越多数前沿模型,体现了其在中文知识和代码领域的核心优势;在GPQA Diamond(90.1)、HMMT 2026 Feb(95.2)等指标中接近顶尖水平,知识储备与推理能力强劲。
2. 长上下文:在MRCR 1M(83.5)、CorpusQA 1M(62.0)指标中表现优异,虽然不及Opus-4.6 Max,但远超Gemini-3.1-Pro High,充分体现了其百万token上下文的处理能力,适合长文档分析等场景。
3. 智能体能力:在SWE Verified(80.6)、BrowseComp(83.4)、MCPAtlas Public(73.6)等指标中表现出色,与领先模型差距较小,能够较好地适配智能体相关任务,具备较强的工具调用与任务执行能力。
整体而言,DeepSeek-V4-Pro-Max作为开源模型,在多个核心指标上逼近甚至超越部分闭源模型,大幅缩小了开源与闭源模型之间的差距,成为当前开源大模型的佼佼者。
为清晰呈现不同推理模式对模型性能的影响,官方测试了DeepSeek-V4-Flash与DeepSeek-V4-Pro在三种推理模式下的表现,涵盖知识与推理、长上下文、智能体能力三个维度,具体结果如下表所示:
基准测试(指标) | V4-Flash Non-Think | V4-Flash High | V4-Flash Max | V4-Pro Non-Think | V4-Pro High | V4-Pro Max |
|---|---|---|---|---|---|---|
知识与推理 | ||||||
MMLU-Pro (EM) | 83.0 | 86.4 | 86.2 | 82.9 | 87.1 | 87.5 |
SimpleQA-Verified (Pass@1) | 23.1 | 28.9 | 34.1 | 45.0 |
模型地址:modelscope.cn/collections/deepseek-ai/DeepSeek-V4