苹果发了篇论文：简单到让人尴尬的自蒸馏提升代码生成能力

1qaz

2026-04-05 12:46:44

苹果发了篇论文：简单到让人尴尬的自蒸馏提升代码生成能力

arxiv.org/abs/2604.01193
不用教师模型，不用奖励模型，不用代码执行验证，也不用 RL；只拿模型自己生成的原始代码解答，再把这些输出当作监督数据做一轮标准 SFT，就可以让模型写代码的能力提升30%。

“大型语言模型能否仅依靠自身的原始输出，在不使用验证器、教师模型或强化学习的情况下提升代码生成能力？我们的答案是可以。
我们提出了简单自蒸馏（SSD）：以特定的温度和截断配置从模型中采样解答，然后使用标准监督微调（SFT）在这些样本上继续微调。SSD 将 Qwen3-30B-Instruct 在 LiveCodeBench v6 上的 pass 1 从 42.4% 提升到 55.3%，且增益主要集中在更难的问题上；同时，该方法还能泛化到 4B、8B 和 30B 规模的 Qwen 与 Llama 模型，包括 instruct 和 thinking 两类变体。为解释这样一种极简方法为何有效，我们将这些性能提升追溯到 LLM 解码中的“精度—探索”冲突，并表明 SSD 会以依赖上下文的方式重塑 token 分布：在需要精度的地方抑制干扰尾部，在需要探索的地方保留有用的多样性。综合来看，SSD 为提升 LLM 的代码生成能力提供了一条互补的后训练路径。
”
#How I AI#

相关阅读