搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Java面试教程
DeepSeek-V4，终于发布，很强！
之前说过很多次的狼来了，这次狼是真的来了，推迟了 N 多次的 DeepSeek-V4 在经历过过程芯片适配，上线又回滚等多次事件后，终于如约而至。刚刚，DeepSeek 官方公众号发文：DeepSeek-V4 预览版：迈入百万上下文普惠时代。全新 DeepSeek-V4 的预览版本正式上线。 DeepSeek-V4 和 DeepSeek-V3.2 的 2、Agent 能力专项优化针对Claude Code、OpenCode、CodeBuddy等主流Agent产品进行了深度优化，在代码任务
84730编辑于 2026-04-27
LLM 系列（二十）：解读 DeepSeek-V4
如果回头来看社区对于 DeepSeek-V4 的期待，我觉得可以把这句诗句颠倒一下：犹抱琵琶半遮面，千呼万唤始出来..... 关于 DeepSeek-V4 的使用和切换，这两天已经有相当多的技术博客做了实践和对比。本文我主要来梳理下 DeepSeek-V4 的技术重点，从技术报告来看，可以概括为四条主线：MoE 稀疏扩容、百万上下文注意力窗口、长上下文缓存复用，以及面向 Agent 的协议兼容与后训练能力。 DeepSeek-V4 支持这一格式后，开发者通常只需要替换 base_url、api_key 和模型名，就能把已有系统平滑切换到 V4 上。 DeepSeek-V4 支持 Anthropic 风格接口，实际上是在主动适配这类执行环境。
57220编辑于 2026-04-27
来自专栏技术人生黄勇
DeepSeek-V4 技术报告深度解析
架构 DeepSeek-V4 的架构保留了 V3 的 Transformer + MoE + MTP 框架，新增了三大组件。 DeepSeek-V4 的基础设施工作有两个特点：全栈自研和软硬件协同设计。 DeepSeek-V4 的异构 KV 缓存管理更复杂，但这是混合注意力架构的必然代价。 DeepSeek-V4 的做法：不训练标量奖励模型，而是用生成式奖励模型——让模型自己生成评估判断，然后对 GRM 本身也做 RL 优化。 DeepSeek-V4 保留完整 logit 分布计算 KL 损失，梯度更稳定。创新：这是一个"精度换效率"的经典 trade-off。
80510编辑于 2026-04-28
DeepSeek-V4模型架构与成本分析
昨晚发布的DeepSeek-V4带来了这一时刻。这是一个1.6万亿参数的混合专家（MoE）模型，采用商业友好的开源MIT许可证免费提供。仅看DeepSeek-V4与最新闭源模型的对比，情况更为克制。在这组共享测试中，某模型5.5和某机构模型4.7仍在多数类别中领先。训练混合专家（MoE）使其整体协同工作DeepSeek-V4不仅仅是"被训练"出来的，而是通过独特的两阶段范式"培养"出来的。 AI评估公司Vals AI指出，DeepSeek-V4现在是"Vibe代码基准上排名第一的开放权重模型，且优势明显"。该公司正迅速淘汰其旧架构。 DeepSeek-V4不仅仅是一个新模型；它是现状的挑战。
81010编辑于 2026-04-25
来自专栏机器学习与统计学
DeepSeek-V4 本地部署，SGLang 把活做绝了
关于 DeepSeek-V4，我之前写过： DeepSeek-V4-Flash 本地部署，2 x H20（96GB版本），性能简测 vLLM解密：DeepSeek-V4本地部署为何如此困难今天换个角度，从架构和推理引擎的视角聊聊：DeepSeek-V4 这次发布为啥这么难伺候，以及 SGLang Day-0 是怎么把活给做下来的 V4 到底改了啥先简单交代下背景，DeepSeek 这次一发就是俩： }' 要 reasoning 分离，加上 deepseek-v4 reasoning parser，reasoning_content 和 content 自动分两个字段；要 tool calling
1.4K20编辑于 2026-05-08
DeepSeek-V4 实战——我用国产大模型重写了3个项目
切到 DeepSeek-V4 后，同样的用量，成本降到 450 元左右。省下来的钱，够买一台新 Mac Mini 了。 ▪ 切到 DeepSeek-V4 后 DeepSeek-V4 的上下文缓存机制，把重复的系统提示和数据结构缓存起来，后续请求直接命中缓存。成本降了 85%。原因： DeepSeek-V4 的模型名是 deepseek-v4-pro 和 deepseek-v4-flash，不是 deepseek-v4。解决：查官方文档，用正确的模型名。六、总结——什么时候用 DeepSeek-V4 ▪ 适合用的场景成本敏感型：每月 token 消耗 > 100 万，成本 > 1000 元代码生成： DeepSeek-V4 在编码基准上表现优秀如果你是成本敏感型开发者，强烈建议试试 DeepSeek-V4。
36011编辑于 2026-05-09
DeepSeek-V4 注意力机制 · 小白学习指南
DeepSeek-V4 注意力机制 · 小白学习指南一份从零开始理解 DeepSeek-V4 如何处理 100 万 token 超长文本的学习笔记基于 HuggingFace Transformers DeepSeek-V4 的解决思路一句话：不是所有字都需要逐字细看，大部分内容看个"摘要"就够了。 DeepSeek-V4 有完善的缓存体系。一句话总结 DeepSeek-V4 用三种"分辨率"看文本：滑动窗口看当前页（精确但范围小），HCA 看全书目录（范围大但模糊），CSA 翻到最相关段落细读（精确且智能选取）。本文档基于 HuggingFace Transformers 中 DeepSeek-V4 的实际代码分析整理。
17320编辑于 2026-05-14
来自专栏大模型系列
DeepSeek-V4 与LangChain、LlamaIndex等主流AI框架的兼容性分析
引言：构建下一代AI应用的基石2026年4月24日，深度求索（DeepSeek）发布了其划时代的DeepSeek-V4系列大模型。本文将深入剖析DeepSeek-V4与这两大框架的兼容性，为开发者提供全面的技术接入指南和最佳实践建议。第一章DeepSeek-V4的核心特性及其对框架集成的意义在讨论兼容性之前，我们必须首先理解DeepSeek-V4的关键特性，因为这些特性直接决定了它与外部框架交互的方式和能力边界。 DeepSeek-V4的超长上下文能力与LlamaIndex的理念形成了完美的互补。我们可以通过配置环境变量或直接传参来使用DeepSeek-V4。
33820编辑于 2026-05-04
来自专栏网络安全攻防
DeepSeek-V4 预览版重磅登场，百万上下文从此普惠
新版发布 2026年4月24日，DeepSeek正式推出了全新一代模型DeepSeek-V4预览版，这是继上一代V3系列之后时隔15个月的重磅更新。这份专注与务实，也让业界对后续正式版充满期待模型特性 DeepSeek-V4一共推出了两个版本：Pro(旗舰版)和 Flash(经济版)。世界知识测评方面，Pro版本大幅领先其他开源模型，仅次于顶尖闭源模型Gemini-Pro-3.1 技术创新 DeepSeek-V4在底层架构上做了大胆革新。模型开源链接 https://huggingface.co/collections/deepseek-ai/deepseek-v4 https://modelscope.cn/collections/ deepseek-ai/DeepSeek-V4 DeepSeek-V4 技术报告 https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main
50610编辑于 2026-05-07
来自专栏h5
uni-app+mphtml快速集成DeepSeek-V4智能ai应用
经过一周迭代研发uniapp+vue3+markdown+mp-html深度对接deepseek-v4快速大模型，纯手搓打造web+小程序端+app端通用流式输出ai智能对话模板。
3200编辑于 2026-05-28
来自专栏大模型系列
万字长文解读 DeepSeek-V4：百万上下文、万亿参数、开源免费，国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token
一、破局者登场：DeepSeek-V4 解决了什么问题？这使得 DeepSeek-V4 能够成功地将模型规模扩展到万亿（1T）级别，同时保持训练的稳定性。3. 四、产业影响与未来展望：普惠AI时代的开启DeepSeek-V4 的发布，其意义远不止于技术本身，它正在引发一场深刻的产业变革。结语DeepSeek-V4 的横空出世，不仅仅是又一次参数的堆砌，而是一场从底层架构开始的深刻革命。 DeepSeek-V4，无疑是通往这个未来的关键一步。
2.8K100编辑于 2026-04-24
来自专栏大模型系列
DeepSeek-V4 国产化落地：百万上下文大模型首次全面拥抱国产算力——华为昇腾、天数智芯、寒武纪等主流国产AI芯片的全栈深度适配
DeepSeek-V4的适配，正是踩在了国产芯片性能达标、国家战略明确、市场需求迫切的历史性交汇点上。二、技术深潜：DeepSeek-V4如何实现全栈国产化？ DeepSeek-V4的国产化适配并非简单的API调用替换，而是一场涉及硬件、驱动、框架、模型四个层面的系统工程。作用：这为DeepSeek-V4这样复杂的MoE（混合专家）模型提供了坚实的底层运行环境，确保了计算效率和稳定性。 2.开源的力量：降低全行业迁移门槛DeepSeek-V4的全面开源是其推动生态建设的关键一招。结语DeepSeek-V4与国产芯片的成功适配，是中国AI产业从“应用创新”迈向“根技术自主创新”的标志性事件。
4.2K61编辑于 2026-04-24
Deepseek-V4究竟在编程上和Claude-Opus-4.7差距有多大？
DeepSeek-V4：极致的性价比与高频代码生成工具DeepSeek 在 V4 系列中则表现出了完全不同的工程策略。特点：DeepSeek-V4 追求的是“高吞吐、低延迟”以及“全方位的性价比”。 DeepSeek-V4 的表现：优势：得益于其底层庞大的训练语料和数学逻辑增强，DeepSeek-V4 在处理常见算法（例如动态规划、图论算法、二叉树操作）时，几乎是“肌肉记忆”级别的输出。劣势：由于它的思考过程较为谨慎，输出的速度不如 DeepSeek-V4 那么迅捷。2. 三、深度对话：Opus 4.7 真的全方位超越 DeepSeek-V4 吗？如果你问我，是不是 Claude-Opus-4.7 在所有编程场景下都比 DeepSeek-V4 强？我的答案是否定的。 DeepSeek-V4 的处理路径输入指令："为 auth_service.py 编写一个基于 Redis 缓存的 JWT 鉴权中间件"输出表现：DeepSeek-V4 在 3 秒内就给出了完整的中间件代码
1.4K10编辑于 2026-05-04
来自专栏大模型系列
从128K到1M：DeepSeek-V4（Pro|Flash ）架构革命与国产大模型的高光时刻—超长上下文、双轴稀疏架构、万亿参数、开源免费、华为昇腾等国产芯片
从128K到1M：DeepSeek-V4的架构革命与国产大模型的高光时刻摘要2026年4月24日，深度求索（DeepSeek）正式发布并开源了其划时代的DeepSeek-V4预览版。 DeepSeek-V4将上下文窗口一举提升至1M，这并非简单的线性扩展，而是一次质的飞跃。第二章：架构革命——双轴稀疏架构的深度剖析DeepSeek-V4的卓越性能源于其独创的“双轴稀疏架构”。第五章：生态与未来——中国AI的原创引领之路DeepSeek-V4的成功，是中国AI产业走向成熟的标志。 DeepSeek-V4正是这条道路上的一次重要实践。结论从128K到1M，DeepSeek-V4完成的不仅是一次技术参数的跨越，更是一场深刻的架构革命。
1.1K40编辑于 2026-04-24
DeepSeek-V4首发即支持，ZStack AIOS 私有化部署即刻可用
在今天这个重要的日子，我们很高兴地宣布——ZStack AIOS 已率先完成 DeepSeek-V4 系列大模型的私有化部署全面适配，并向企业用户开放体验申请。 DeepSeek-V4 的发布，是中国开源大模型在效率与能力双重维度上的又一次重大突破，我们致敬这份持续推动底层创新的坚持。 DeepSeek-V4：效率与能力的双重跃升DeepSeek-V4 系列包括 DeepSeek-V4-Pro（1.6T 总参数 / 49B 激活）与 DeepSeek-V4-Flash（284B 总参数 DeepSeek-V4 系列私有化部署验证已完成，现向企业用户开放测试体验申请。我们的工程师团队将提供从算力规划、模型部署到应用落地的全栈技术支持。开源模型的每一步，我们都在从 DeepSeek-R1 到 DeepSeek-V4，开源模型的进化速度超出了大多数人的预期。
39000编辑于 2026-04-24
来自专栏大模型系列
DeepSeek-V4 多模态模型深度解析：开启原生多模态与百万上下文新纪元（2026年官方发布版）——V4-Pro 与 V4-Flash 双擎驱动MoE 架构
中国AI公司深度求索（DeepSeek）正式发布了其划时代的DeepSeek-V4系列预览版，并同步完成了MIT协议的全量开源。第一章：产品矩阵与战略定位——双子星闪耀DeepSeek-V4并非一个孤立的模型，而是一个精心设计、覆盖不同应用场景的双模型产品矩阵。第二章：革命性技术架构——效率与能力的完美平衡DeepSeek-V4的卓越表现，根植于其一系列自研的、突破性的底层技术。第四章：性能评测与横向对比——开源领域的巅峰之作DeepSeek-V4在多个维度的评测中均展现出顶尖实力。作为开发者，我们正站在一个激动人心的时代入口，而DeepSeek-V4，无疑是那把最锋利的钥匙。
10K50编辑于 2026-05-03
来自专栏AI大模型
DeepSeek-V4来了：百万上下文为什么是开源模型的分水岭
DeepSeek-V4预览版于2026年4月正式上线并同步开源，这是DeepSeek迄今最强大的模型系列。 DeepSeek-V4拥有约1万亿参数的MoE（MixtureofExperts）架构和100万token（1M）超长上下文窗口，在Agent能力、世界知识和推理性能三个核心维度上均达到了开源模型的最高水准本文将从架构创新、性能基准、API接入、本地部署到竞品对比，全面拆解DeepSeek-V4带来的技术突破与实际应用价值。DeepSeek-V4是什么？从DeepSeek-V4开始，1M上下文将成为DeepSeek所有官方服务的标配。 DeepSeek-V4的模型权重已在HuggingFace和ModelScope两个平台同步开源，技术报告也一并发布。
1.3K10编辑于 2026-04-27
DeepSeek-V4架构与性能评估报告：基于英法德多语言技术社区数据的全景审查
, MoE）大语言模型——DeepSeek-V4系列。此次发布之前，市场曾因算力禁运政策而普遍预期模型的发布将大幅延期，但DeepSeek-V4的实际面世打破了这一传言。 DeepSeek-V4引入了Engram条件记忆架构，从物理层面上将事实性知识的存储与动态的逻辑推理过程分离。对于需要在前端设计上获得较高质量输出的产品团队，DeepSeek-V4目前并非首选。然而，DeepSeek-V4的API对“修剪上下文”的行为有特定要求。
1.6K10编辑于 2026-04-26
来自专栏DeepHub IMBA
DeepSeek-V4 深度解读：百万上下文背后的工程细节
DeepSeek-V4 想解决的正是这个问题，用混合稀疏注意力（CSA + HCA）把 KV Cache 沿序列维度狠压一刀，用 mHC（流形约束的超连接）顶住深层堆叠的数值不稳定，用 Muon 优化器加快收敛架构：V4 在 V3 之上动了哪三刀 DeepSeek-V4 仍然是 Transformer + DeepSeekMoE + MTP 的底盘，相比 V3 系列做了三处关键升级：维度 DeepSeek-V3 / V3.2 DeepSeek-V4 注意力 MLA（V3）/ DSA（V3.2） CSA + HCA 混合残差连接标准 residual mHC（流形约束超连接）优化器 AdamW Muon（ mHC —— 给残差通路套一个概率守恒 DeepSeek-V4 没有沿用标准 residual，而是引入了 mHC（Manifold-Constrained Hyper-Connections）。 Algorithm: Muon for DeepSeek-V4 G_t = ∇W L # 梯度 M_t = μ M_{t-1} + G_t
72410编辑于 2026-04-28
来自专栏大模型系列
从工具到伙伴：DeepSeek-V4 如何赋能企业打造“数字员工”？
2026年4月24日，深度求索（DeepSeek）发布的DeepSeek-V4系列大模型，正是这一跃迁的关键催化剂。 DeepSeek-V4是原生支持文本、图像、视频的统一模型，使其具备了更全面的感知能力。 DeepSeek-V4在这方面提供了双重保障。全栈国产化：V4已成功适配华为昇腾等国产AI芯片，实现了“国产大模型+国产算力”的技术闭环。构建最小可行产品（MVP）利用LangChain、LlamaIndex等框架，快速将DeepSeek-V4集成到现有工作流中，验证其效果。这场由DeepSeek-V4点燃的“数字员工”革命，才刚刚开始。
26920编辑于 2026-05-04

第 2 页第 3 页第 4 页第 5 页第 6 页

点击加载更多

DeepSeek-V4，终于发布，很强！

LLM 系列（二十）：解读 DeepSeek-V4

DeepSeek-V4 技术报告深度解析

DeepSeek-V4模型架构与成本分析

DeepSeek-V4 本地部署，SGLang 把活做绝了

DeepSeek-V4 实战——我用国产大模型重写了3个项目

DeepSeek-V4 注意力机制 · 小白学习指南

DeepSeek-V4 与LangChain、LlamaIndex等主流AI框架的兼容性分析

DeepSeek-V4 预览版重磅登场，百万上下文从此普惠

uni-app+mphtml快速集成DeepSeek-V4智能ai应用

万字长文解读 DeepSeek-V4：百万上下文、万亿参数、开源免费，国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token

DeepSeek-V4 国产化落地：百万上下文大模型首次全面拥抱国产算力——华为昇腾、天数智芯、寒武纪等主流国产AI芯片的全栈深度适配

Deepseek-V4究竟在编程上和Claude-Opus-4.7差距有多大？

从128K到1M：DeepSeek-V4（Pro|Flash ）架构革命与国产大模型的高光时刻—超长上下文、双轴稀疏架构、万亿参数、开源免费、华为昇腾等国产芯片

DeepSeek-V4首发即支持，ZStack AIOS 私有化部署即刻可用

DeepSeek-V4 多模态模型深度解析：开启原生多模态与百万上下文新纪元（2026年官方发布版）——V4-Pro 与 V4-Flash 双擎驱动MoE 架构

DeepSeek-V4来了：百万上下文为什么是开源模型的分水岭

DeepSeek-V4架构与性能评估报告：基于英法德多语言技术社区数据的全景审查

DeepSeek-V4 深度解读：百万上下文背后的工程细节

从工具到伙伴：DeepSeek-V4 如何赋能企业打造“数字员工”？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐