在代码生成领域，模型写出错误代码却浑然不觉是一个顽固难题。

西兰花炒大笨象

2026-04-08 07:04:19

《Self-Execution Simulation Improves Coding Models》G Maimon, O Yoran, F Kreuk, M Hassid… (2026)

在代码生成领域，模型写出错误代码却浑然不觉是一个顽固难题。根本原因在于：模型将代码视为静态文本，无法追踪程序在运行时的状态演变，因此既无法自我核验，也无法从执行失败中获得有效反馈。

本文的核心洞见是：把"执行代码"重新看作"可学习的语言推理任务"。由此，用自然语言逐步描述程序执行过程（NLEX）作为监督数据，再结合可验证奖励的强化学习，使模型获得了不依赖外部解释器、在脑内模拟运行结果的能力。凭借这一能力，模型既能从多个候选答案中筛选最优解，也能根据模拟执行的反馈迭代修复自身代码。

这项工作真正留下的遗产是：证明了语言模型可以成为自身代码的执行模拟器，将"验证"这一原本依赖外部环境的环节内化为模型能力本身。它为后来者打开的新门是：在沙箱受限或执行代价高昂的场景中实现大规模代码推理与优化。但尚未跨过的门槛是：模拟精度对复杂数值计算仍力不从心，且当前方案只适用于单文件竞赛题，距离真实工程仓库级任务尚远。

arxiv.org/abs/2604.03253

##

相关阅读