摘要
2025 年初,DeepSeek-R1 以不到 OpenAI o1 训练成本 3% 的代价达到了同等推理水平,其核心依赖的 Group Relative Policy Optimization(GRPO)算法迅速成为开源社区训练推理模型的事实标准。然而,随着社区大规模复现的展开,vanilla GRPO 的诸多缺陷——熵崩溃、奖励噪声、长度偏差——逐渐暴露。2025–2026 年间,DAPO、Dr. GRPO、GRPO++ 等一系列改进方案相继涌现,将 GRPO 从一个"能跑"的算法打磨为一套可规模化部署的训练系统。与此同时,理论工作也开始揭示 GRPO 的边界:它本质上是一个保守的预训练偏好放大器,而非通用推理增强器。本文梳理这一算法演进的完整脉络。
两条路径:RLHF 与 RLVR 的分野
在 GRPO 出现之前,LLM 的强化学习训练几乎被 RLHF(Reinforcement Learning from Human Feedback)范式垄断。RLHF 的核心流程是:收集人类偏好数据 → 训练奖励模型(Reward Model)→ 用 PPO 优化策略。这套流程的问题在于,奖励模型本身就是另一个与策略模型规模相当的神经网络,训练和维护成本极高,且奖励信号容易漂移。
RLVR(Reinforcement Learning with Verifiable Rewards)则走了一条完全不同的路。在数学、编程等可验证领域,答案的正确性可以通过规则(字符串匹配、单元测试)直接判定,无需训练奖励模型。这一思路的奠基性工作来自 DeepSeekMath 论文,随后被 DeepSeek-R1 发扬光大。
Sebastian Raschka 在 2026 年初的 MAD Podcast 中总结道,2025 年 LLM 领域最大的叙事转折就是"从预训练转向后训练,从 RLHF 转向 RLVR"。GRPO 正是 RLVR 范式下最成功的 RL 优化器。
GRPO:用群组归一化替代 Critic
GRPO 的核心创新在于抛弃了 PPO 中的价值函数(Critic)。在标准 PPO 中,优势函数 A(s, a) = Q(s, a) - V(s) 需要通过一个与策略模型规模相当的价值网络来估计——这几乎将内存占用翻倍。GRPO 的做法是:对同一个 prompt 采样多个回答(通常 4–16 个),以组内平均奖励作为基线来计算优势:
A_i = (r_i - mean(r_group)) / std(r_group)
优势估计的简化带来了三个直接收益:其一,不再需要训练价值网络,内存和计算开销大幅降低;其二,组内相对比较天然具备归一化效果,减少了奖励尺度的敏感性;其三,与可验证奖励结合后,整个 RL 训练流程仅需基座模型和规则验证器两个组件。
然而,正如 Cameron Wolfe 在 GRPO++ 中所言,"GRPO 的简单性是欺骗性的"。vanilla GRPO 在规模化训练中暴露出一系列问题。
Vanilla GRPO 的陷阱与 DAPO 的四项修正
DeepSeek-R1 的技术报告虽引发了轰动,但并未提供完整的训练细节。社区在复现过程中发现,直接用 vanilla GRPO 在 Qwen-2.5-32B 上训练,AIME 2024 得分仅为 30%,远低于 DeepSeek 报告中的 47%。来自字节跳动与清华的 DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)论文系统性地诊断了四大问题并提出对应修正:
(1)Clip Higher——解耦裁剪阈值。 PPO/GRPO 的重要性比率裁剪范围默认为 [1-ε, 1+ε](ε=0.2)。DAPO 发现,这个上界对低概率探索 token 极不公平——一个概率为 0.01 的 token 在正向优势下最多只能涨到 0.012,而高概率 token 几乎不受约束。这导致模型熵快速崩溃,丧失探索能力。DAPO 将上界 ε_high 提升至 0.28,保留下界不变,有效防止了熵崩溃。
(2)Dynamic Sampling——过滤零梯度样本。 随着训练推进,越来越多的 prompt 的所有回答都正确(组内奖励全为 1)。这些样本的优势为零,对梯度无贡献,却消耗计算资源并稀释有效梯度的信噪比。DAPO 采用动态过采样策略:每轮采样后过滤掉"全对"的 prompt,继续采样直到凑满有效 batch。实验表明,这一策略显著提升了样本效率,训练收敛速度大幅加快。
(3)Token-Level Loss——从样本级到 token 级的损失聚合。 原始 GRPO 在样本级别聚合损失(先对每个样本内 token 求平均,再对样本求平均),导致长序列中每个 token 的贡献被稀释。这意味着模型既难以从优质长回答中学习推理模式,也难以有效惩罚长回答中的重复和乱码。DAPO 改为在 token 级别聚合(对所有 token 一视同仁),训练稳定性显著改善。
(4)Overlong Reward Shaping——软性长度惩罚。 传统做法对超出长度上限的样本直接给负奖励。DAPO 提出软惩罚方案:在 [L_max - L_cache, L_max] 区间内线性递增惩罚,超限才给满分惩罚。这避免了将"推理正确但略长"的样本粗暴地标记为负样本。
四项修正叠加后,DAPO 在 AIME 2024 上达到 50% 准确率,超过 DeepSeek-R1-Zero-Qwen-32B 的 47%,且仅用了后者一半的训练步数。
Dr. GRPO:长度偏差与难度归一化
与 DAPO 几乎同时,另一篇重要论文 Understanding R1-Zero-Like Training: A Critical Perspective(社区称为 Dr. GRPO)从不同角度切入 GRPO 的缺陷。
Dr. GRPO 指出,vanilla GRPO 的损失函数中存在两个系统性偏差:其一,对于正优势样本,短回答因 1/|o| 归一化因子而获得不成比例的奖励提升,导致模型倾向于生成短回答而非充分推理;其二,对于负优势样本,长回答因归一化因子而受到更轻的惩罚,纵容了冗长而错误的输出。这两个效应叠加,恰好与我们希望模型"在正确时充分推理、在错误时快速收敛"的目标背道而驰。
Dr. GRPO 的解决方案是去掉序列长度归一化,让每个 token 在损失中贡献相等。同时,它还发现 GRPO 的组内标准差归一化对不同难度的问题不公平——高难度问题天然方差大,优势信号被稀释;低难度问题方差小,梯度更新反而更强。Dr. GRPO 提议去掉组内标准差归一化,让难度各异的问题在梯度更新中获得平等的权重。
不过,Nathan Lambert 在 Interconnects 的综述中指出,Dr. GRPO 的消融实验并未展示最终下游性能的显著提升——它改善了训练动态(更短的输出长度、更稳定的奖励曲线),但最终准确率并未超越基线。这暗示在当前阶段,数据质量和多样性对最终性能的影响可能大于算法的微调。
理论边界:GRPO 是放大器还是创造者?
2026 年,一篇提交至顶会的论文 Can GRPO Help LLMs Transcend Their Pretraining Origin? 从理论层面给出了一个有趣的结论:GRPO 本质上是一个保守的重加权机制,受限于基座模型的预训练分布,无法发现完全新颖的解决方案。
研究者通过从头训练 Transformer 的受控实验,在推理深度、输入长度、token 表示和组合泛化四个维度上验证了这一结论。OOD(分布外)泛化仅在目标任务与预训练偏好对齐时才会出现,而 ID(分布内)性能增益会随着饱和度上升而递减。
这一理论框架将 GRPO 重新定位为"预训练偏好的锐化器"而非"通用推理增强器"。对于社区而言,这意味着单纯堆 RL 训练步数并不能无限提升推理能力——基座模型的质量和多样性仍然是天花板。
展望:后 GRPO 时代的算法方向
尽管 GRPO 是当前最流行的选择,但多位研究者提醒:GRPO 并非"特殊的 RL 算法"。Nathan Lambert 指出,GRPO 与 RLOO(REINFORCE Leave One Out)在实现上几乎相同,区别仅在于是否使用 PPO 风格的裁剪。Kimi k1.5 团队使用了在线策略镜像下降而非 GRPO,OpenReasonerZero 则回归了 PPO + GAE 的经典组合。
算法进步的真正方向可能不在于对 GRPO 本身的无尽修补,而在于三个更根本的问题:
数据工程:Kimi k1.5 和 OpenReasonerZero 的实验反复证明,RL 提示词的质量、多样性和难度平衡比算法细节重要得多。一个精心筛选的 57K 提示词集,可能比十个算法技巧更能提升最终性能。
从数学到开放域:当前 RLVR 的成功主要局限于数学和编程等可验证领域。如何将可验证奖励扩展到开放域推理——如医学诊断、法律分析、科学研究——是下一个关键挑战。DeepSeek 的 Generalist Reward Model 和过程奖励模型(PRM)的探索正在这一方向上前行。
超越预训练分布:Can GRPO Help LLMs Transcend Their Pretraining Origin? 的理论结论暗示,下一代 RL 算法需要设计能够真正扩展模型能力边界的机制,而非仅仅锐化既有能力。这可能意味着在 RL 训练中引入更结构化的探索策略,或与 search-based 方法(如 MCTS)更深度地结合。
GRPO 的故事提供了一个经典案例:一个看似简单的算法创新——用群组平均替代价值函数——如何撬动整个领域的范式转变。但正如所有伟大的算法一样,它的真正价值不在于其自身的完美,而在于它打开了哪些新的问题空间。
本文基于截至 2026 年 6 月 19 日的公开研究成果撰写。

