在多模型推理调度领域，「如何在不实际生成回复的情况下，预判哪个模型最适合处理当前请求」是一个悬而未决的难题。

吴歌 · 发表于 2026-3-26 07:21:22

[CL]《Expected Reward Prediction, with Applications to Model Routing》K Hasanaliyev, S Alberti, J Hamer, D Rajagopal… [Stanford University & Google DeepMind] (2026)

在多模型推理调度领域，「如何在不实际生成回复的情况下，预判哪个模型最适合处理当前请求」是一个悬而未决的难题。过去的路由方法需要收集模型两两之间的偏好比较数据，本质原因是奖励模型的训练目标只保证相对排序有意义，不保证跨提示的绝对分值可比。

本文的核心洞见是：把「某模型在特定提示下的期望奖励」重新看作提示文本的一个内在属性，而非响应的属性。由此，用一个轻量级线性模型拟合提示嵌入与期望奖励均值之间的映射，这一关键操作使「无需采样即可预测模型表现」成为可能，且单模型独立训练即可扩展至新模型。

这项工作真正留下的遗产是：证明了期望奖励在提示空间中具有线性可预测结构，为推理时计算资源分配提供了一个可量化的锚点。它为后来者打开的新门是：任何依赖偏好比较数据的推理时决策任务，都可能被替换为更廉价的期望奖励回归方案。但尚未跨过的门槛是：该方法对奖励模型本身的行为特性存在隐含依赖，在奖励分布高度离散或奖励模型偏差较大的场景下，期望奖励作为充分统计量的假设可能失效。

arxiv.org/abs/2603.20217

#

在多模型推理调度领域，「如何在不实际生成回复的情况下，预判哪个模型最适合处理当前请求」是一个悬而未决的难题。

本帖子中包含更多资源

相关帖子