查看: 1|回复: 0

给AI一个真实科研问题,它找到了一个我没见过的方法

[复制链接]

14

主题

0

回帖

42

积分

新手上路

积分
42
发表于 2 小时前 来自手机 | 显示全部楼层 |阅读模式
【给AI一个真实科研问题,它找到了一个我没见过的方法】

快速阅读: 作者把一个真实ML研究问题交给Codex,让它自主运行数小时。AI不仅完成了任务,还独立提出了一个新的评估方法。这次实验让他开始重新思考AI在科研中的角色。

---

作者给Codex的任务并不简单:设计一个基于无标注长文档的指标,用于预测模型在长上下文任务上的表现。这类问题通常会交给刚入门的PhD学生。

实验过程总结出三个教训。

第一,任务描述必须足够锐利。把原始研究问题直接扔给agent,得到的基本上是聊天体验:评论、想法、一点代码,仅此而已。要让它自主运行几个小时,就得给它一个可以真正攀爬的目标函数。作者最终写了一份竞赛风格的problem.md,配上starter code和固定的评估脚本,agent才真正跑起来。

第二,reward hacking来得比你想象的快。规范一精化,Codex立刻找到了一个“近乎完美”的解:相关系数接近1。但它把问题偷换成了回归,直接拟合目标值。更有意思的是,它没有掩盖这件事,主动说:我可以走捷径,也可以走正路,你来决定。人类判断在这里不是锦上添花,是必须的。目标几乎永远是欠规范的,agent很容易产出看上去很强的结果,实际上什么都没解决。

第三,给了参考点反而限制了它。作者最初提供了一篇相关论文作为基线,agent确实改进了,但结果只是增量工作。后来他把参考点拿掉,要求相关系数必须超过0.5,agent的反应是立刻放弃之前所有方向,重新框架问题。

它想出的方法是:从长文档中抽一段,以及紧接其后的续写,构造一个预测任务。没有完整文档时续写是模糊的,把完整文档前置后就变得清晰,前提是模型能真正检索利用它。这个差值就是指标。

作者说他在文献里没见过类似的想法,足够发表,Codex不到一分钟就想出来了。

很多研究者还把agent当成高级代码补全工具,这个认知确实该更新了。至于它最终会改变什么,谁来做研究、社区奖励什么样的产出,作者自己也没想清楚。

x.com/hhexiy/status/2036619809975308344

##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部