强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

中国龙卷风

2026-03-17 13:52:31

【强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史】

快速阅读：从InstructGPT到DeepSeek-R1，强化学习成为大模型推理能力飞跃的关键。这两年涌现的GRPO、RLOO、MaxRL等方法，核心都在解决同一个问题：如何用更少的资源、更精准的信号，教会模型推理。

---

2024年前，PPO统治LLM训练领域多年。它的原理很简单：把监督学习想象成老师指定答案让学生背，PPO就是让学生自己尝试答案，答对了加分，答错了扣分。但PPO有个麻烦，需要一个额外的“价值模型”来估计每个状态有多好，这让训练变得复杂且吃内存。

GRPO的出现改变了这一切。它的思路是“同学互评”：对同一道题生成多个答案，答得比其他答案好就奖励，答得差就惩罚。DeepSeek-R1用这个方法把内存占用直接砍掉一半，却发现了新问题。

回答越长，每个token分到的奖励越稀薄。这导致模型学会了一个取巧策略：答对时尽量简短（奖励集中），答错时尽量啰嗦（惩罚分散）。Dr. GRPO修复了这个漏洞，把loss计算从“按句子平均”改成“按token数平均”。

有观点认为，PPO的信任区域机制可能过于保守。当一个低概率token的几率发生大幅变化时，PPO会直接屏蔽它的梯度。但这些token恰恰可能是推理的关键转折点，比如“Wait”、“Aha”、“Recheck”。CISPO的方案是：继续限制权重，但让梯度继续流动。

MaxRL提出了更激进的想法。传统RL优化的是“第一次就答对”（pass@1），但这未必是最优目标。MaxRL插值到最大似然估计，结果是更好的pass@k表现和更高的输出多样性。它的训练信号集中在困难样本上：当某道题的成功率很低但非零时，那些偶然成功的答案会被赋予很大权重。

ScaleRL用40万GPU小时的实验回答了一个根本问题：哪些设计在真正的大规模训练中依然重要？他们发现，FP32精度计算logits这种看似琐碎的细节，实际上对最终性能影响巨大。生成框架和训练框架之间即使参数完全相同，低概率token的概率比也可能剧烈波动，而用FP32能把这个问题基本消除。

现在的共识是：不需要价值函数，token级别的loss聚合比样本级别更好，标准差归一化会放大已解决问题的权重。但信任区域该如何定义，依然是开放问题。DPPO认为用采样token的概率比来约束是错的，应该直接测量策略分布的散度。

最难的问题还没解决。如果模型从未给出正确答案，所有这些方法都无法提供梯度。课程学习只是权宜之计。另一个挑战是样本效率，当前方法每个prompt需要8到64个rollout才能构建有效的对比基线，在验证成本高昂的场景下这根本不可行。

还有一个被低估的问题：大部分证据仍然是经验性的、狭窄的、难以复现的。ScaleRL揭示了一个事实，某个改进可能加快早期学习速度，也可能提升渐近性能，但这两者不能互换。我们对哪些改进真正稳健、哪些只在特定设置下有效，知道得比看起来少得多。

这个领域不再受限于缺乏可行算法。瓶颈在于效率、鲁棒性、通用性，以及理解哪些实证改进能够经受规模考验并迁移到新场景。

ref: aweers.de/blog/2026/rl-for-llms/

##

相关阅读