首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Se7en的架构笔记

    DeepSeek 开源周第二弹:DeepEP —— 首个 MoE 模型训练和推理的 EP 通信库

    此外,遵循 DeepSeek-V3/R1 的预训练设置,包括每批 4096 个 token、隐藏层维度 7168、Top-4 分组、Top-8 专家、FP8 分发以及 BF16 结果合并。 此外,遵循典型的 DeepSeek-V3/R1 生产环境设置,包括每批 128 个 token、隐藏层维度 7168、Top-8 专家、FP8 分发以及 BF16 结果合并。

    84710编辑于 2025-05-21
  • 来自专栏机器之心

    刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!

    他们遵循 DeepSeek-V3/R1 预训练设置(每批次 4096 个 token,7168 隐藏维度,top-4 组,top-8 专家,FP8 分发和 BF16 合并)。 他们遵循典型的 DeepSeek-V3/R1 生产设置(每批次 128 个 token,7168 隐藏维度,top-8 专家,FP8 分发和 BF16 合并)。

    51710编辑于 2025-02-25
  • 744B参数只激活5%,这个纯国产训练的AI在编程上追平了Opus 4.6

    展开代码语言:TXTAI代码解释flowchartTBInput[输入Token序列]-->Router[路由器Router]Router-->|"权重Top-8"|E1[专家1]Router-->|" 权重Top-8"|E2[专家2]Router-->|"权重Top-8"|E3[专家3]Router-->|"权重..."

    42610编辑于 2026-04-11
领券