苹果发了篇论文:简单到让人尴尬的自蒸馏提升代码生成能力

苹果发了篇论文:简单到让人尴尬的自蒸馏提升代码生成能力

arxiv.org/abs/2604.01193
不用教师模型,不用奖励模型,不用代码执行验证,也不用 RL;只拿模型自己生成的原始代码解答,再把这些输出当作监督数据做一轮标准 SFT,就可以让模型写代码的能力提升30%。

“大型语言模型能否仅依靠自身的原始输出,在不使用验证器、教师模型或强化学习的情况下提升代码生成能力?我们的答案是可以。
我们提出了简单自蒸馏(SSD):以特定的温度和截断配置从模型中采样解答,然后使用标准监督微调(SFT)在这些样本上继续微调。SSD 将 Qwen3-30B-Instruct 在 LiveCodeBench v6 上的 pass 1 从 42.4% 提升到 55.3%,且增益主要集中在更难的问题上;同时,该方法还能泛化到 4B、8B 和 30B 规模的 Qwen 与 Llama 模型,包括 instruct 和 thinking 两类变体。为解释这样一种极简方法为何有效,我们将这些性能提升追溯到 LLM 解码中的“精度—探索”冲突,并表明 SSD 会以依赖上下文的方式重塑 token 分布:在需要精度的地方抑制干扰尾部,在需要探索的地方保留有用的多样性。综合来看,SSD 为提升 LLM 的代码生成能力提供了一条互补的后训练路径。

#How I AI#



分类