暂无搜索历史
上一篇导读把第三组的问题定住了:当数据、reward 和算法合同都成立后,下一步要看 response 是怎么被生产出来的。本文先回答最基础的问题:rollou...
第二组把算法从名字翻译成了工程合同:数据入口给出 raw_prompt、reward_model和 extra_info,reward 形成 token 级训练...
上一篇把 reward 从“一个分数函数”拆成了系统接口。这一篇继续往上游走:reward manager 为什么能拿到 data_source、reward_...
上一篇写 KL、clip、entropy,说明 actor 更新需要限速器。但限速器限制的是 reward 和 advantage 驱动出来的更新方向。继续往前...
上一篇写 DAPO、Dr. GRPO 和长度偏置,说明 reward、advantage 和 loss 聚合会把 response 长度变成训练变量。这一篇继续...
上一篇解释了 GRPO 为什么能省掉 critic:它用同一 prompt 的多条 response 做组内相对 baseline,而不是训练一个 value ...
上一篇拆清了 PPO 后训练里的四个角色:actor 才是被 policy loss 更新的主策略,critic 只是给 PPO/GAE 提供 value ba...
上一组最后一篇按 fit()走完了一轮 PPO/GRPO step。进入第二组,我们换一个视角:同一轮 step 里有 actor、rollout、refere...
第一组解决的是“系统怎么转”。我们从“AI 后训练不是一个训练脚本”开始,依次拆了 HybridFlow、Single Controller、ResourceP...
前五篇已经把全局地图铺好:HybridFlow 解释阶段,single controller 保留顺序,ResourcePool 和 WorkerGroup 放...
前四篇已经建立了这条主线:RLHF 不是一个训练脚本,而是一条训推闭环;HybridFlow 把它拆成高层 dataflow;single controller...
上一篇解释了 single controller:PPO 主循环保留在一个 controller 进程里,一行 WorkerGroup 调用会被展开成 disp...
上一篇我们把 RLHF 看成一条高层 Dataflow:rollout 生成样本,reward/ref/value/advantage 补齐训练信号,actor...
这篇文章只解决一个问题:verl 为什么能把复杂的 RLHF/PPO 训练写得像一段单进程程序,同时又让真正的计算跑在多 GPU worker 上?
这篇文章只建立一个判断:AI 后训练不是一次性跑完的训练脚本,而是一套持续生成轨迹、评估轨迹、组织训练信号、更新模型、再同步给推理侧的训推闭环系统。
因为固有工作较难找出新的增长点,那时候也是在大模型爆发的前夜,传统技术如何做出新的花样? 团队和个人如何有新的发展?
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市