anzhsoft - 个人中心 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

anzhsoft

LV0

全部文章

13-Rollout训练系统里的推理服务
上一篇导读把第三组的问题定住了：当数据、reward 和算法合同都成立后，下一步要看 response 是怎么被生产出来的。本文先回答最基础的问题：rollou...
anzhsoft 7小时前2026-07-03 17:13:57
服务、后端、同步、系统、源码
00-第三组导读-推理如何嵌入训练
第二组把算法从名字翻译成了工程合同：数据入口给出 raw_prompt、reward_model和 extra_info，reward 形成 token 级训练...
anzhsoft 7小时前2026-07-03 17:13:49
服务、工具、数据、算法、系统
12-数据进入RL前经历了什么
上一篇把 reward 从“一个分数函数”拆成了系统接口。这一篇继续往上游走：reward manager 为什么能拿到 data_source、reward_...
anzhsoft 2天前2026-07-01 21:10:15
prompt、对象、配置、数据、dataset
11-Reward不是一个分数函数这么简单
上一篇写 KL、clip、entropy，说明 actor 更新需要限速器。但限速器限制的是 reward 和 advantage 驱动出来的更新方向。继续往前...
anzhsoft 2天前2026-07-01 21:09:59
系统、函数、路由、模型、数据
10-KL-clip-entropy给模型更新装限速器
上一篇写 DAPO、Dr. GRPO 和长度偏置，说明 reward、advantage 和 loss 聚合会把 response 长度变成训练变量。这一篇继续...
anzhsoft 2天前2026-07-01 21:09:48
配置、系统、源码、actor、模型
09-DAPO、Dr. GRPO 与长度偏置
上一篇解释了 GRPO 为什么能省掉 critic：它用同一 prompt 的多条 response 做组内相对 baseline，而不是训练一个 value ...
anzhsoft 2天前2026-07-01 21:09:36
actor、管理、配置、系统、源码
08-GRPO 为什么能省掉 critic
上一篇拆清了 PPO 后训练里的四个角色：actor 才是被 policy loss 更新的主策略，critic 只是给 PPO/GAE 提供 value ba...
anzhsoft 2天前2026-07-01 21:09:24
算法、系统、源码、response、token
07-PPO 在 LLM 后训练里真正训练了什么
上一组最后一篇按 fit()走完了一轮 PPO/GRPO step。进入第二组，我们换一个视角：同一轮 step 里有 actor、rollout、refere...
anzhsoft 2天前2026-07-01 21:09:13
源码、LLM、actor、policy、配置
第二组导读：算法如何落到工程
第一组解决的是“系统怎么转”。我们从“AI 后训练不是一个训练脚本”开始，依次拆了 HybridFlow、Single Controller、ResourceP...
anzhsoft 2天前2026-07-01 21:09:02
算法、系统、源码、配置、数据
06 一轮 PPO/GRPO step 到底发生了什么
前五篇已经把全局地图铺好：HybridFlow 解释阶段，single controller 保留顺序，ResourcePool 和 WorkerGroup 放...
anzhsoft 2天前2026-07-01 21:08:49
源码、地图、模型、同步、系统
05-DataProto-RL训练流水线里的集装箱
前四篇已经建立了这条主线：RLHF 不是一个训练脚本，而是一条训推闭环；HybridFlow 把它拆成高层 dataflow；single controller...
anzhsoft 2天前2026-07-01 21:08:35
数据、协议、序列化、tensor、对象
04-ResourcePool和WorkerGroup-GPU资源如何被角色化
上一篇解释了 single controller：PPO 主循环保留在一个 controller 进程里，一行 WorkerGroup 调用会被展开成 disp...
anzhsoft 2天前2026-07-01 21:08:22
模型、系统、gpu、pool、进程
03-SingleController一个大脑如何调度一群GPU工人
上一篇我们把 RLHF 看成一条高层 Dataflow：rollout 生成样本，reward/ref/value/advantage 补齐训练信号，actor...
anzhsoft 2天前2026-07-01 21:04:01
进程、分布式、gpu、worker、代理
02 HybridFlow：把 RLHF 看成高层 Dataflow
这篇文章只解决一个问题：verl 为什么能把复杂的 RLHF/PPO 训练写得像一段单进程程序，同时又让真正的计算跑在多 GPU worker 上？
anzhsoft 2天前2026-07-01 21:03:41
分布式、dataflow、算法、系统、源码
01 为什么 AI 后训练不是一个训练脚本
这篇文章只建立一个判断：AI 后训练不是一次性跑完的训练脚本，而是一套持续生成轨迹、评估轨迹、组织训练信号、更新模型、再同步给推理侧的训推闭环系统。
anzhsoft 2天前2026-07-01 21:03:24
模型、同步、系统、分布式、脚本
从心出发：从“架构原本”到“训推工坊”
因为固有工作较难找出新的增长点，那时候也是在大模型爆发的前夜，传统技术如何做出新的花样？团队和个人如何有新的发展？
anzhsoft 2天前2026-07-01 21:03:10
模型、数据、算法、系统、架构

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2019-10-14

个人成就

获得 6 次赞同
文章被阅读 948 次

关注了：1关注者：10