查看: 3|回复: 0

在多模型推理调度领域,「如何在不实际生成回复的情况下,预判哪个模型最适合处理当前请求」是一个悬而未决的难题。

[复制链接]

6

主题

1

回帖

20

积分

新手上路

积分
20
发表于 3 小时前 | 显示全部楼层 |阅读模式
[CL]《Expected Reward Prediction, with Applications to Model Routing》K Hasanaliyev, S Alberti, J Hamer, D Rajagopal… [Stanford University & Google DeepMind] (2026)


在多模型推理调度领域,「如何在不实际生成回复的情况下,预判哪个模型最适合处理当前请求」是一个悬而未决的难题。过去的路由方法需要收集模型两两之间的偏好比较数据,本质原因是奖励模型的训练目标只保证相对排序有意义,不保证跨提示的绝对分值可比。

本文的核心洞见是:把「某模型在特定提示下的期望奖励」重新看作提示文本的一个内在属性,而非响应的属性。由此,用一个轻量级线性模型拟合提示嵌入与期望奖励均值之间的映射,这一关键操作使「无需采样即可预测模型表现」成为可能,且单模型独立训练即可扩展至新模型。

这项工作真正留下的遗产是:证明了期望奖励在提示空间中具有线性可预测结构,为推理时计算资源分配提供了一个可量化的锚点。它为后来者打开的新门是:任何依赖偏好比较数据的推理时决策任务,都可能被替换为更廉价的期望奖励回归方案。但尚未跨过的门槛是:该方法对奖励模型本身的行为特性存在隐含依赖,在奖励分布高度离散或奖励模型偏差较大的场景下,期望奖励作为充分统计量的假设可能失效。

arxiv.org/abs/2603.20217

#





























本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部