首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek V4 来了,它到底比别人强在哪?

DeepSeek V4 来了,它到底比别人强在哪?

作者头像
用户1589488
发布2026-06-02 13:12:17
发布2026-06-02 13:12:17
800
举报

不用技术背景,看懂 DeepSeek V4 创新和差异~

同一天,OpenAI 发布了 GPT-5.5。DeepSeek 也发了 V4。没有发布会,没有预告,直接把 58 页技术报告丢上 HuggingFace,代码权重同步开源。

今天我们就来看看Deepseek这次发布带来的创新是什么?给我们带来哪些好处?

大模型到底在"比"什么

先思考一个问题:AI 大模型之间在比什么,各种测评基准体系测的都是什么?

你可以把大模型想象成一个员工。它帮你写代码、改 Bug、分析报告等。如果是你来评价这个员工,会从哪些维度?

评价大模型一般从下面几个方面:

1 能不能做。 能不能完成任务?做得对不对?

2 做得稳不稳。 每次结果一不一样?会不会突然犯低级错误?

3 贵不贵。 雇这个员工要花多少钱?能同时服务多少用户?

DeepSeek V4 的核心优势在第三个维度:同等效果下,成本砍掉了大半。

一个长上下文,卡了行业两年

要理解 DeepSeek V4 做了什么,先理解这个问题:为什么 AI 很难"读长文"?

你打开一本 800 页的书,让 AI 帮你总结或找信息。AI 处理这本书,需要把每一页和其他每一页都"比对一遍"。

这叫平方增长。长度翻倍,计算量翻 4 倍。这就是为什么大家都说"128K 上下文"、"1M 上下文"——说的就是 AI 一次能处理多少文字。而上下文越长,算力成本越夸张。即使模型"支持 1M 上下文",但实际跑起来太贵而且不实用。

DeepSeek V4 的核心创新:把长文"压一压"

DeepSeek V4 的技术团队想到一个办法:先压缩,再处理。

想象你要读一篇 1000 页的报告。

正常方式:把每一页都完整保留,互相比对。

DeepSeek 的方式:先把每 4 页合并成 1 页摘要,再从摘要里挑出最相关的 256 段精读。遇到真的需要细节的地方,再补上原始内容的最近 128 行。

这叫 CSA(压缩稀疏注意力)

还有更激进的:每 128 页合并成 1 页,只看大轮廓。这叫 HCA(重度压缩注意力)

两种方法交替用:中间距离精读用 CSA,超远距离扫大轮廓用 HCA。

效果如何?和它上一代 V3.2 相比,在处理 100 万字的情况下:

另外两个创新

除了长文压缩,V4 还做了另外两件事。

- 更稳的"信息传递"(mHC)

原来 AI 每层处理信息,就像工厂流水线——一道工序传给下一道,只有一条传送带。

V4 的做法是:把传送带从 1 条扩展到 4 条,同时还给传送带加了一个数学约束——让信息在传递中不会"放大失真"。

代价呢?训练时间多花 6.7%。性价比极高。

- 更快的"学习方法"(Muon 优化器)

传统方法(AdamW)就像用普通地图导航,每次找下坡方向走。

Muon 优化器的思路是:先把下坡方向"正交化",去掉冗余维度,走最干净的路。收敛更快,训练更稳。

有意思的是,Muon 是 Kimi 在 2025 年 7 月率先用在大规模模型上的,版本叫 MuonClip。DeepSeek 接棒并大规模落地。

其他主流模型在干什么

来看看对手们在做什么。

4天前刚发Kimi K2.6(月之暗面)

方向:Agent 长程任务。能连续编码 13 小时不中断,同时指挥 300 个子 Agent 并行工作。

短板:上下文只有 128K,相比 DeepSeek V4 的 100 万差距明显。

2026.04GLM-5.1(智谱)

方向:工程级 Agent + 减少幻觉。DSA 动态稀疏注意力把幻觉率降了 56%。Slime 异步强化学习框架让 Agent 训练效率大幅提升。

自称 SWE-bench Pro 全球第一开源。

MetaLLaMA 4 Scout

方向最激进:10M(1000 万)token 上下文,比 DeepSeek V4 还多 10 倍。用 iRoPE 交错位置编码实现。

坑:授权协议有限制,月活超 7 亿需单独申请。

昨天刚发腾讯 Hy3

方向:低成本 + 产品深绑定。295B 总参只激活 21B(7%),输出 4 元/百万 token。跟腾讯文档、元宝、WorkBuddy 全线接入。

特色:快慢思考融合,单模型内置两种推理模式。

一张表,看懂差异

模型

最擅长

上下文

开源

核心创新

DeepSeek V4

全能,长文极低成本

100万

CSA+HCA压缩注意力

Kimi K2.6

Agent 长程编程

12.8万

MuonClip+300子Agent

GLM-5.1

工程Agent,低幻觉

20万

Slime异步RL+DSA

LLaMA 4 Scout

超长上下文

1000万

⚠️

iRoPE交错位置编码

Hy3(腾讯)

低成本产品集成

25.6万

快慢思考融合

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一深思AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大模型到底在"比"什么
  • 一个长上下文,卡了行业两年
  • DeepSeek V4 的核心创新:把长文"压一压"
  • 另外两个创新
  • 其他主流模型在干什么
  • 一张表,看懂差异
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档