强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史

【强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史】


快速阅读:从InstructGPT到DeepSeek-R1,强化学习成为大模型推理能力飞跃的关键。这两年涌现的GRPO、RLOO、MaxRL等方法,核心都在解决同一个问题:如何用更少的资源、更精准的信号,教会模型推理。


---


2024年前,PPO统治LLM训练领域多年。它的原理很简单:把监督学习想象成老师指定答案让学生背,PPO就是让学生自己尝试答案,答对了加分,答错了扣分。但PPO有个麻烦,需要一个额外的“价值模型”来估计每个状态有多好,这让训练变得复杂且吃内存。


GRPO的出现改变了这一切。它的思路是“同学互评”:对同一道题生成多个答案,答得比其他答案好就奖励,答得差就惩罚。DeepSeek-R1用这个方法把内存占用直接砍掉一半,却发现了新问题。


回答越长,每个token分到的奖励越稀薄。这导致模型学会了一个取巧策略:答对时尽量简短(奖励集中),答错时尽量啰嗦(惩罚分散)。Dr. GRPO修复了这个漏洞,把loss计算从“按句子平均”改成“按token数平均”。


有观点认为,PPO的信任区域机制可能过于保守。当一个低概率token的几率发生大幅变化时,PPO会直接屏蔽它的梯度。但这些token恰恰可能是推理的关键转折点,比如“Wait”、“Aha”、“Recheck”。CISPO的方案是:继续限制权重,但让梯度继续流动。


MaxRL提出了更激进的想法。传统RL优化的是“第一次就答对”(pass@1),但这未必是最优目标。MaxRL插值到最大似然估计,结果是更好的pass@k表现和更高的输出多样性。它的训练信号集中在困难样本上:当某道题的成功率很低但非零时,那些偶然成功的答案会被赋予很大权重。


ScaleRL用40万GPU小时的实验回答了一个根本问题:哪些设计在真正的大规模训练中依然重要?他们发现,FP32精度计算logits这种看似琐碎的细节,实际上对最终性能影响巨大。生成框架和训练框架之间即使参数完全相同,低概率token的概率比也可能剧烈波动,而用FP32能把这个问题基本消除。


现在的共识是:不需要价值函数,token级别的loss聚合比样本级别更好,标准差归一化会放大已解决问题的权重。但信任区域该如何定义,依然是开放问题。DPPO认为用采样token的概率比来约束是错的,应该直接测量策略分布的散度。


最难的问题还没解决。如果模型从未给出正确答案,所有这些方法都无法提供梯度。课程学习只是权宜之计。另一个挑战是样本效率,当前方法每个prompt需要8到64个rollout才能构建有效的对比基线,在验证成本高昂的场景下这根本不可行。


还有一个被低估的问题:大部分证据仍然是经验性的、狭窄的、难以复现的。ScaleRL揭示了一个事实,某个改进可能加快早期学习速度,也可能提升渐近性能,但这两者不能互换。我们对哪些改进真正稳健、哪些只在特定设置下有效,知道得比看起来少得多。


这个领域不再受限于缺乏可行算法。瓶颈在于效率、鲁棒性、通用性,以及理解哪些实证改进能够经受规模考验并迁移到新场景。


ref: aweers.de/blog/2026/rl-for-llms/


##



分类