找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

AI想太多,反而更蠢

[复制链接]

7

主题

0

回帖

21

积分

新手上路

积分
21
发表于 2 小时前 | 显示全部楼层 |阅读模式
【AI想太多,反而更蠢】


快速导读:谷歌新研究发现,AI的思考链长度与准确率呈负相关(-0.54),他们提出的新指标DTR(深度思考比例)相关系数高达0.82,并能在仅50个token时就预判一条推理路径的质量高低。

---

有人问Qwen3一个电影台词出自哪里,模型生成了超过一万个token的“思考”过程,然后告诉他:不知道。

这不是段子。这是一位本地模型用户的真实遭遇。

谷歌刚发的这篇论文,把这种感觉量化成了一个数字:-0.54。

这是思考链长度与答题准确率之间的平均相关系数。负相关。跨越8个模型变体、三套数学基准测试,结论一致:模型想得越多,答对的概率往往越低。

大多数人的直觉是反过来的。更长的推理过程,意味着更严谨,意味着考虑了更多可能性,意味着答案更可靠——这几乎是我们评判“认真思考”的底层逻辑,在人类身上大体成立,在语言模型上直接失效。


谷歌的研究团队把这个现象拆开来看,发现了一件有意思的事:不是所有token都在做推理。“and”、“is”、“the”这类词,模型在浅层就敲定了预测,几乎不经过深层修订,属于填充。真正在做推理的token,会在模型更深的层里持续被修正,直到最后才收敛。他们用这个比例定义了一个新指标——DTR(深度思考比例),它和准确率的相关系数是0.82。

比长度有用得多。

更实用的是他们基于这个指标设计的策略:Think@n。同时跑多条推理路径,只看每条路径最开始的50个token,用DTR估算质量,淘汰掉低质量的那一半,剩下的多数投票。结果是GPT-OSS-120B在AIME 2025上从92.7%提到了94.7%,token消耗从355,600降到181,900。省了一半算力,准不准反而更高。

有人已经在自己造轮子了:监控推理过程中的重复模式、token熵值,一旦检测到在兜圈子,直接断掉这条链,重新采样。在单卡本地推理的场景里,这种顺序采样加早停,比并行跑多路更现实。

当然也有人泼冷水——这个方法在数学题上效果好,是因为正确的推理路径和“在转圈”的路径,在结构上本来就很不一样。换到开放式问题或者代码生成,前50个token根本分不清“模型在认真想一个边缘情况”还是“模型在空转”。

这个区别很重要。有人指出,-0.54这个负相关里,可能混了两种失败模式:一种是模型从头就跑偏了,链条越来越长是在挣扎;另一种是问题本来有清晰答案,模型却陷入了反复自我质疑的循环。这两种情况在DTR下的表现,应该是不同的。如果DTR真能区分这两种失败,它的价值才算真正落地了。

有一位用户总结得很干脆:当模型在推理过程里第一次开始说“but wait”,你就知道接下来不会有好消息了。

这和人类考试时的经验吊诡地吻合——“选了第一感觉的答案,涂卡前改掉,结果改错了”。

但有一个问题还没人说清楚:模型在什么条件下会“觉得自己需要想更久”?如果这个触发机制本身就有规律,那比DTR还更往上游的过滤,才是真正省算力的地方。

---

简评:

长思考链一直被当作“模型认真”的证明,这篇研究把这个直觉直接翻转。更有意思的是DTR这个视角:不是数量,是哪些token在真正参与计算。本地推理用户的那堆评论比论文本身还接地气——50个token早停,手动kill掉转圈的推理路径,这些草台班子方案已经跑起来了,谷歌的论文只是把它说出来了。

---

ref: reddit.com/r/LocalLLaMA/comments/1rh6pru/google_found_that_longer_chain_of_thought


##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-3 14:02 , Processed in 0.234707 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表