找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1|回复: 0

在长时序稀疏奖励的强化学习领域,让智能体习得并组合底层运动技能是一个悬而未决的难题。

[复制链接]

8

主题

0

回帖

34

积分

新手上路

积分
34
发表于 2 小时前 | 显示全部楼层 |阅读模式
[LG]《SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding》R Zabounidis, Y Wu, S Stepputtis, W Kim… [CMU & Virginia Tech] (2026)


在长时序稀疏奖励的强化学习领域,让智能体习得并组合底层运动技能是一个悬而未决的难题。过去的方法让大语言模型一次性生成奖励函数或技能规格,但LLM的先验知识往往存在偏差——它不知道游戏里炼铁只需1块铁矿而非3块——错误无从纠正,训练因此失败。

本文的核心洞见是:把LLM的技能提议视为待验证的假设而非最终答案。由此,"轨迹分析"这一关键操作使问题得以解开:当RL策略首次成功执行某技能时,系统将成功轨迹的起止状态和完整过程反馈给LLM,令其自动修正前提条件和资源消耗量。实验表明,这一机制将前驱技能的资源估算误差削减了50%至67%,让原本成功率为0%的任务(如种植采食)提升至92%。

这项工作真正留下的遗产是:证明了"LLM规划+RL执行"的闭环反馈比任何一端的单独努力都更强大,在Craftax上将钻石采集率从47%提升至88%,并首次突破地精矿洞(9%,基线为0%)。它为后来者打开的新门是——将在线轨迹分析用于运行时适应,当环境规则改变时无需人工介入即可自动修复技能规格。但尚未跨过的门槛是:系统依赖预定义的符号状态空间,技能执行顺序固定,且Frontier Checkpointing需要环境状态可序列化,三条约束共同限制了其向真实世界的迁移。

arxiv.org/abs/2603.09036













































#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-12 16:45 , Processed in 0.203261 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表