搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI前沿技术
强化学习｜GRPO GSPO SAPO 演进
2，GSPO 目标函数序列级优化 2.1，对齐奖励与序列级设计与GRPO的token级设计不同，GSPO的核心思路是：让优化单位匹配奖励单位。 GSPO的关键创新在于，基于序列似然的重要性比率定义，完全契合重要性采样的基本原理。此外，GSPO将归一化奖励计算为同一查询下多个响应的优势值，确保了序列级奖励与优化过程的对齐。 GSPO算法采用以下序列级优化目标：其中，GSPO采用分组优势估计（group-based advantage estimation）：并基于序列似然定义重要性比率：这一设计的核心优势在于： 1）总结：从GRPO到GSPO再到SAPO的演进，本质上是对“异策略学习中稳定性与样本效率平衡”这一核心问题的逐步优化：优化粒度升级： GRPO（token级）→ GSPO（序列级）→ SAPO（序列级 ”的优化，逐步提升样本效率；核心目标迭代：从“解决基本训练可行性”（GRPO→GSPO，避免模型崩溃）到“追求更高效率与性能”（GSPO→SAPO，提升样本利用率与任务适配性）。
53710编辑于 2026-01-18
来自专栏强化学习系列
强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO
GSPO (Group Sequence Policy Optimization) GSPO：Group Sequence Policy Optimization 论文地址:https://arxiv.org /pdf/2507.18071 GSPO也是通义实验室提出的论文，WebResearcher 项目采用了 GSPO的方案。 GSPO的核心思想主要是：重要性比率的定义 GSPO用序列级别的概率来定义重要性比率 (不是 token 级别)。相比 GRPO 的 token-level 可能引入高方差，GSPO 更稳定，尤其在训练大模型例如 MoE 时减少崩塌风险。在复杂问题比如WebReasearch中，也用到GSPO提升复杂推理问题的性能和效率。
3.8K44编辑于 2025-11-23
来自专栏机器之心
科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生
后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。如果说 DAPO 是在 GRPO 框架内做微调，那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级。为此，Qwen 团队将 GRPO 进化为组序列策略优化（Group Sequence Policy Optimization, GSPO）。因此，GSPO 的损失函数为： GRPO：重要性权重在 token 级，每个 token 都可能被单独裁剪。 GSPO：重要性权重在序列级，裁剪时直接作用于整个回答，更符合奖励信号的整体性。因此，GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性，很可能会成为未来后训练强化学习的新标准。
1.5K10编辑于 2025-09-02
每周AI论文速递（250721-250725）
Group Sequence Policy Optimization 序列组策略优化本文提出序列组策略优化（Group Sequence Policy Optimization，GSPO），这是一种稳定不同于以往采用Token级重要性比例的方法，GSPO根据序列似然来定义重要性比例，并进行序列级的裁剪、奖励和优化。实验表明，相较于GRPO算法，GSPO在训练效率和性能上表现更优，能有效稳定混合专家（Mixture-of-Experts，MoE）的强化学习训练过程，同时具备简化强化学习基础设施设计的潜力。 GSPO的这些优势显著提升了最新Qwen3模型的性能。
59710编辑于 2025-07-27
来自专栏贾志刚-OpenCV学堂
InternVL3.5-开源多模态视觉大模型王者
在级联强化学习中，我们首先在离线强化学习环境下使用混合偏好优化（MPO）对模型进行微调，然后在在线强化学习环境下使用GSPO。
23410编辑于 2026-04-02
PPO最强，DPO一般？一文带你了解常见三种强化学习方法，文末有大模型微调神器！
这也是后来GRPO、GSPO等新算法诞生的重要原因。如果你手头只有几张GPU，还想用PPO+RM跑一套完整RLHF流程，大概率会被现实猛猛教育一下。 SOTA的大厂垂直问答、领域助手、开源模型安全防护、粗对齐、低预算项目如果用一句话给不同类型团队提建议：●大厂/研究机构有工程团队、有算力、有大量标注资源：优先采用PPO+RM，在此基础上再探索GRPO、GSPO
91610编辑于 2025-12-01
来自专栏贾志刚-OpenCV学堂
InternVL3.5 - 开源多模态视觉大模型王者
在级联强化学习中，我们首先在离线强化学习环境下使用混合偏好优化（MPO）对模型进行微调，然后在在线强化学习环境下使用GSPO。
27510编辑于 2026-04-02
来自专栏DeepHub IMBA
Google开源Tunix：JAX生态的LLM微调方案来了
强化学习：实现了几个主流算法：PPO（Proximal Policy Optimization）、GRPO（Group Relative Policy Optimization）、还有token级别的GSPO
26310编辑于 2025-11-15
来自专栏编码如写诗
OpenClaw自学习：AReaL 让智能体真正学会
六、支持的算法和模型算法矩阵算法异步/同步典型应用 GRPO ✅ 数学推理 GSPO ✅ 通用优化 PPO ✅ 经典RL DAPO ✅ 分解异步 LitePPO ✅ 轻量级所有算法支持异步/
86711编辑于 2026-03-05
来自专栏机器学习与统计学
微调大模型，门槛低到离谱
只要 transformers 能跑的，Unsloth 都能加速强化学习（RL）最高效：GRPO、GSPO、DrGRPO、DAPO、PPO、DPO 全部支持，显存比标准方案节省 80%。
88310编辑于 2026-03-02
读完200篇论文，看DeepMind、Meta、DeepSeek ，中美巨头都在描述哪种AGI叙事｜2025 AI 年度复盘
比如Qwen的GSPO的优化引入了分值加权，不只看你是否高于平均分，还看你的绝对得分是多少，让GPRO能够从对的里选出更好的，把全错的都排除出梯度，让训练更稳。 2510.13786] The Art of Scaling Reinforcement Learning Compute for LLMs)● Group Sequence Policy Optimization (GSPO )（文中 Qwen 的 GSPO / GSPO 类）https://arxiv.org/abs/2507.18071 ([2507.18071] Group Sequence Policy Optimization
67621编辑于 2026-01-15
来自专栏DrugOne
BioReason-Pro：首个蛋白质功能推理大模型，注释质量超越 UniProt 人工审编
随后，团队使用 GSPO（Group Sequence Policy Optimization）进行强化学习，以预测 GO 术语与真实标签之间的加权 F_max 作为奖励信号，直接优化 GO 术语预测的准确性
14010编辑于 2026-04-10
来自专栏时空探索之旅
AI论文速读 | 面向复杂时空推理：高德时空智能体——STAgent的设计与实践
SFT-Guided RL：突破性能天花板以优化后的 SFT 模型为初始化权重，在沙箱环境中采用 GRPO 变体 GSPO 算法进行强化学习——通过几何平均计算整个轨迹的似然比：实现序列级优化约束，
28010编辑于 2026-03-10
来自专栏LLM-RL
收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定
强化学习从入门到封神：5本经典教材+8大实战项目+7个免费视频，一站式搞定小白也能看懂的RLHF：基础篇小白也能看懂的RLHF-PPO：原理篇小白也能看懂的LLM-RL算法：PPO/DPO/GRPO/GSPO2022
1.8K12编辑于 2026-01-20
每周AI论文速递（260202-260206）
具体而言，我们修正了组序列策略优化 (Group Sequence Policy Optimization, GSPO) 中固有的长度偏差，使其损失函数对响应长度无偏，从而解决了响应长度崩溃问题。实证结果表明，与 GRPO 和 GSPO 等现有方法相比，LUSPO 是一种新颖且先进的优化策略。你好，我是叶子，9年Java开发老司机，待过小的创业公司也待过上市厂子。
30410编辑于 2026-03-02
来自专栏LLM
收藏！LLM开发全链路：5大步骤+15大框架，从数据治理到RLHF一文通关
强化学习从入门到封神：5本经典教材+8大实战项目+7个免费视频，一站式搞定小白也能看懂的RLHF：基础篇小白也能看懂的RLHF-PPO：原理篇小白也能看懂的LLM-RL算法：PPO/DPO/GRPO/GSPO 模型支持：支持Qwen-VL,InternVL,GLM-4.5V,Ovis等300+多模态模型多模态优化：引入多模态打包技术（Packing），训练速度提升100%+强化学习族群：内置GRPO,DAPO,GSPO
68212编辑于 2026-01-26
来自专栏Vibe Coding
收藏! 2026最强开源AI编程工具清单：从代码补全到自主智能体
强化学习从入门到封神：5本经典教材+8大实战项目+7个免费视频，一站式搞定小白也能看懂的RLHF：基础篇小白也能看懂的RLHF-PPO：原理篇小白也能看懂的LLM-RL算法：PPO/DPO/GRPO/GSPO
5.6K21编辑于 2026-03-02
每周AI论文速递（250922-250926）
然而，现有的基于滚动 (rollout) 的强化学习方法 (如 GRPO、DAPO、GSPO 等) 未能显式考虑大语言模型对不同难度样本的学习能力，这与人类从易到难进行数学推理的认知过程相悖。
31410编辑于 2025-11-20
来自专栏CreateAMind
大型推理模型的强化学习综述（1-4章）
另一项近期工作 GSPO [Zheng 等，2025a] 将 token 级裁剪的重要性采样比率替换为序列级裁剪。除了 REINFORCE 和 GRPO 相关算法外，还存在其他无评论家方法。在近期工作 GSPO [Zheng 等，2025a] 中，计算了序列级重要性采样因子。GSPO 增加了一个独特的归一化因子以确保概率比率可计算，但该方法仍是对真实重要性采样因子的一种有偏估计。目标函数的结构化修改：GSPO [Zheng 等，2025a] 将比率与裁剪操作移至序列级别，相比 GRPO 在稳定性与效率上均有提升，尤其适用于专家混合模型（MoE）的稳定 RL 训练。
79920编辑于 2026-03-11
每周AI论文速递（260302-260306）
在多种异构模型组合和推理基准测试上的大量实验表明，HACPO 能够持续提升所有参与智能体的性能，其平均表现超出 GSPO 3.3%，同时仅需后者一半的轨迹采样成本。
20610编辑于 2026-03-27

第 2 页

强化学习｜GRPO GSPO SAPO 演进

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

每周AI论文速递（250721-250725）

InternVL3.5-开源多模态视觉大模型王者

PPO最强，DPO一般？一文带你了解常见三种强化学习方法，文末有大模型微调神器！

InternVL3.5 - 开源多模态视觉大模型王者

Google开源Tunix：JAX生态的LLM微调方案来了

OpenClaw自学习：AReaL 让智能体真正学会

微调大模型，门槛低到离谱

读完200篇论文，看DeepMind、Meta、DeepSeek ，中美巨头都在描述哪种AGI叙事｜2025 AI 年度复盘

BioReason-Pro：首个蛋白质功能推理大模型，注释质量超越 UniProt 人工审编

AI论文速读 | 面向复杂时空推理：高德时空智能体——STAgent的设计与实践

收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定

每周AI论文速递（260202-260206）

收藏！LLM开发全链路：5大步骤+15大框架，从数据治理到RLHF一文通关

收藏! 2026最强开源AI编程工具清单：从代码补全到自主智能体

每周AI论文速递（250922-250926）

大型推理模型的强化学习综述（1-4章）

每周AI论文速递（260302-260306）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐