搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Se7en的架构笔记
DeepSeek 开源周第二弹：DeepEP —— 首个 MoE 模型训练和推理的 EP 通信库
此外，遵循 DeepSeek-V3/R1 的预训练设置，包括每批 4096 个 token、隐藏层维度 7168、Top-4 分组、Top-8 专家、FP8 分发以及 BF16 结果合并。此外，遵循典型的 DeepSeek-V3/R1 生产环境设置，包括每批 128 个 token、隐藏层维度 7168、Top-8 专家、FP8 分发以及 BF16 结果合并。
84710编辑于 2025-05-21
来自专栏机器之心
刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！
他们遵循 DeepSeek-V3/R1 预训练设置（每批次 4096 个 token，7168 隐藏维度，top-4 组，top-8 专家，FP8 分发和 BF16 合并）。他们遵循典型的 DeepSeek-V3/R1 生产设置（每批次 128 个 token，7168 隐藏维度，top-8 专家，FP8 分发和 BF16 合并）。
51710编辑于 2025-02-25
744B参数只激活5%，这个纯国产训练的AI在编程上追平了Opus 4.6
展开代码语言：TXTAI代码解释flowchartTBInput[输入Token序列]-->Router[路由器Router]Router-->|"权重Top-8"|E1[专家1]Router-->|" 权重Top-8"|E2[专家2]Router-->|"权重Top-8"|E3[专家3]Router-->|"权重..."
42610编辑于 2026-04-11