在肺炎、结核等需要"差异诊断"的临床场景中,语言模型面临一个结构性困境:标准强化学习训练将模型压向概率最高的单一答案
《Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models》I Puri, M Damani, I Shenfeld, M Ghassemi… (2026)在肺炎、结核等需要"差异诊断"的临床场景中,语言模型面临一个结构性困境:标准强化学习训练将模型压向概率最高的单一答案,导致它在面对信息不完整的真实病例时,反复输出同一主导答案,而正确答案往往分散在多个可能性之中。
本文的核心洞见是:把"生成答案"重新看作"生成答案的分布"。由此,将奖励函数从单点正确性扩展到集合覆盖率这一关键操作使问题得以解开——模型在单次前向传播中同时推理多个候选假设,并借助基于"正当评分规则"的校准奖励,为每个答案附上置信度,内化了原本依赖重复采样才能实现的推理搜索过程。
这项工作真正留下的遗产是:证明了多答案结构可以作为训练目标直接优化,而非推理时的事后补救——在编程任务上,它将 Top-1 准确率提升超过 50%,同时将 token 消耗削减一半以上。它为后来者打开的新门是将语言模型输出视为显式概率分布的训练范式,为医疗、法律等高不确定性决策场景提供了新路径。但尚未跨过的门槛是:单答案目标在 Top-1 精度上仍占优,且当任务本质上只有一个正确答案时,模型会形成"置信度之和等于 1"的错误先验,在极难问题上校准能力反而退化。
arxiv.org/abs/2603.24844
##
页:
[1]