查看: 6|回复: 0

在对话推荐领域,LLM 依赖预训练知识却无法感知新增电影,而现有语料库规模极小(仅约7k条目),使基于嵌入的检索几乎无法落地。

[复制链接]

10

主题

0

回帖

30

积分

新手上路

积分
30
发表于 11 小时前 | 显示全部楼层 |阅读模式
[IR]《Retrieval Augmented Conversational Recommendation with Reinforcement Learning》Z Yue, H Zhuang, Z Qin, Z He… [University of Illinois Urbana-Champaign & Google DeepMind] (2026)


在对话推荐领域,LLM 依赖预训练知识却无法感知新增电影,而现有语料库规模极小(仅约7k条目),使基于嵌入的检索几乎无法落地。两阶段系统中检索器与生成器各自为政,检索质量低劣时 LLM 非但无法纠偏,反而放大噪声——冷门物品的推荐几乎完全失效。

本文的核心洞见是:把"检索质量"重新看作可被 LLM 打分的强化学习奖励信号。由此,用 LLM 的 NDCG 输出反向驯化检索器这一关键操作使两阶段的割裂得以弥合——检索器通过在线、同策略的 DPO/GRPO 迭代采样候选集、收集反馈、更新策略,无需触碰黑盒 LLM 的参数。

这项工作真正留下的遗产是:首次证明用 LLM 偏好反馈驱动检索器对齐,可将对话推荐的幻觉率压至1%以下,并在冷门物品上实现近4倍提升。它为后来者打开的新门是"任意黑盒 LLM 皆可作为免训练奖励源"的范式。但尚未跨过的门槛是:方法仍局限于电影单域,跨域泛化能力与实时动态语料的持续更新机制尚未验证。

arxiv.org/abs/2604.04457

##














本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部