找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

从 vibe coding agent 到后训练,从零开始的实验科学

[复制链接]

3

主题

1

回帖

11

积分

新手上路

积分
11
发表于 5 小时前 | 显示全部楼层 |阅读模式
从 vibe coding agent 到后训练,从零开始的实验科学

http://t.cn/AXtl2TsV
这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。作者详述了使用 verl 框架对7B模型进行监督微调(SFT)和强化学习(RL)训练的经历,指出SFT虽然提升了工具使用能力但损害了推理能力。最终,通过采用GRPO算法并引入NGRPO等技巧解决奖励方差问题,他成功将小模型的表现提升至与 deepseek-chat 相当的水平。文章强调了在缺乏成熟调试工具的情况下,通过实验性探索掌握后训练技术的重要性。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-19 11:23 , Processed in 0.106639 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表