不用技术背景,看懂 DeepSeek V4 创新和差异~
同一天,OpenAI 发布了 GPT-5.5。DeepSeek 也发了 V4。没有发布会,没有预告,直接把 58 页技术报告丢上 HuggingFace,代码权重同步开源。
今天我们就来看看Deepseek这次发布带来的创新是什么?给我们带来哪些好处?
先思考一个问题:AI 大模型之间在比什么,各种测评基准体系测的都是什么?
你可以把大模型想象成一个员工。它帮你写代码、改 Bug、分析报告等。如果是你来评价这个员工,会从哪些维度?
评价大模型一般从下面几个方面:
1 能不能做。 能不能完成任务?做得对不对?
2 做得稳不稳。 每次结果一不一样?会不会突然犯低级错误?
3 贵不贵。 雇这个员工要花多少钱?能同时服务多少用户?
DeepSeek V4 的核心优势在第三个维度:同等效果下,成本砍掉了大半。
要理解 DeepSeek V4 做了什么,先理解这个问题:为什么 AI 很难"读长文"?
你打开一本 800 页的书,让 AI 帮你总结或找信息。AI 处理这本书,需要把每一页和其他每一页都"比对一遍"。

这叫平方增长。长度翻倍,计算量翻 4 倍。这就是为什么大家都说"128K 上下文"、"1M 上下文"——说的就是 AI 一次能处理多少文字。而上下文越长,算力成本越夸张。即使模型"支持 1M 上下文",但实际跑起来太贵而且不实用。
DeepSeek V4 的技术团队想到一个办法:先压缩,再处理。
想象你要读一篇 1000 页的报告。
正常方式:把每一页都完整保留,互相比对。
DeepSeek 的方式:先把每 4 页合并成 1 页摘要,再从摘要里挑出最相关的 256 段精读。遇到真的需要细节的地方,再补上原始内容的最近 128 行。
这叫 CSA(压缩稀疏注意力)。
还有更激进的:每 128 页合并成 1 页,只看大轮廓。这叫 HCA(重度压缩注意力)。
两种方法交替用:中间距离精读用 CSA,超远距离扫大轮廓用 HCA。
效果如何?和它上一代 V3.2 相比,在处理 100 万字的情况下:

除了长文压缩,V4 还做了另外两件事。
- 更稳的"信息传递"(mHC)
原来 AI 每层处理信息,就像工厂流水线——一道工序传给下一道,只有一条传送带。
V4 的做法是:把传送带从 1 条扩展到 4 条,同时还给传送带加了一个数学约束——让信息在传递中不会"放大失真"。
代价呢?训练时间多花 6.7%。性价比极高。
- 更快的"学习方法"(Muon 优化器)
传统方法(AdamW)就像用普通地图导航,每次找下坡方向走。
Muon 优化器的思路是:先把下坡方向"正交化",去掉冗余维度,走最干净的路。收敛更快,训练更稳。
有意思的是,Muon 是 Kimi 在 2025 年 7 月率先用在大规模模型上的,版本叫 MuonClip。DeepSeek 接棒并大规模落地。
来看看对手们在做什么。
4天前刚发Kimi K2.6(月之暗面)
方向:Agent 长程任务。能连续编码 13 小时不中断,同时指挥 300 个子 Agent 并行工作。
短板:上下文只有 128K,相比 DeepSeek V4 的 100 万差距明显。
2026.04GLM-5.1(智谱)
方向:工程级 Agent + 减少幻觉。DSA 动态稀疏注意力把幻觉率降了 56%。Slime 异步强化学习框架让 Agent 训练效率大幅提升。
自称 SWE-bench Pro 全球第一开源。
MetaLLaMA 4 Scout
方向最激进:10M(1000 万)token 上下文,比 DeepSeek V4 还多 10 倍。用 iRoPE 交错位置编码实现。
坑:授权协议有限制,月活超 7 亿需单独申请。
昨天刚发腾讯 Hy3
方向:低成本 + 产品深绑定。295B 总参只激活 21B(7%),输出 4 元/百万 token。跟腾讯文档、元宝、WorkBuddy 全线接入。
特色:快慢思考融合,单模型内置两种推理模式。
模型 | 最擅长 | 上下文 | 开源 | 核心创新 |
|---|---|---|---|---|
DeepSeek V4 | 全能,长文极低成本 | 100万 | ✅ | CSA+HCA压缩注意力 |
Kimi K2.6 | Agent 长程编程 | 12.8万 | ✅ | MuonClip+300子Agent |
GLM-5.1 | 工程Agent,低幻觉 | 20万 | ✅ | Slime异步RL+DSA |
LLaMA 4 Scout | 超长上下文 | 1000万 | ⚠️ | iRoPE交错位置编码 |
Hy3(腾讯) | 低成本产品集成 | 25.6万 | ✅ | 快慢思考融合 |