在代码生成领域,模型写出错误代码却浑然不觉是一个顽固难题。

《Self-Execution Simulation Improves Coding Models》G Maimon, O Yoran, F Kreuk, M Hassid… (2026)


在代码生成领域,模型写出错误代码却浑然不觉是一个顽固难题。根本原因在于:模型将代码视为静态文本,无法追踪程序在运行时的状态演变,因此既无法自我核验,也无法从执行失败中获得有效反馈。

本文的核心洞见是:把"执行代码"重新看作"可学习的语言推理任务"。由此,用自然语言逐步描述程序执行过程(NLEX)作为监督数据,再结合可验证奖励的强化学习,使模型获得了不依赖外部解释器、在脑内模拟运行结果的能力。凭借这一能力,模型既能从多个候选答案中筛选最优解,也能根据模拟执行的反馈迭代修复自身代码。

这项工作真正留下的遗产是:证明了语言模型可以成为自身代码的执行模拟器,将"验证"这一原本依赖外部环境的环节内化为模型能力本身。它为后来者打开的新门是:在沙箱受限或执行代价高昂的场景中实现大规模代码推理与优化。但尚未跨过的门槛是:模拟精度对复杂数值计算仍力不从心,且当前方案只适用于单文件竞赛题,距离真实工程仓库级任务尚远。

arxiv.org/abs/2604.03253

##




























分类