AI想太多，反而更蠢

慢慢来嘛 · 发表于 2026-3-3 12:02:00

【AI想太多，反而更蠢】

快速导读：谷歌新研究发现，AI的思考链长度与准确率呈负相关（-0.54），他们提出的新指标DTR（深度思考比例）相关系数高达0.82，并能在仅50个token时就预判一条推理路径的质量高低。

---

有人问Qwen3一个电影台词出自哪里，模型生成了超过一万个token的“思考”过程，然后告诉他：不知道。

这不是段子。这是一位本地模型用户的真实遭遇。

谷歌刚发的这篇论文，把这种感觉量化成了一个数字：-0.54。

这是思考链长度与答题准确率之间的平均相关系数。负相关。跨越8个模型变体、三套数学基准测试，结论一致：模型想得越多，答对的概率往往越低。

大多数人的直觉是反过来的。更长的推理过程，意味着更严谨，意味着考虑了更多可能性，意味着答案更可靠——这几乎是我们评判“认真思考”的底层逻辑，在人类身上大体成立，在语言模型上直接失效。

谷歌的研究团队把这个现象拆开来看，发现了一件有意思的事：不是所有token都在做推理。“and”、“is”、“the”这类词，模型在浅层就敲定了预测，几乎不经过深层修订，属于填充。真正在做推理的token，会在模型更深的层里持续被修正，直到最后才收敛。他们用这个比例定义了一个新指标——DTR（深度思考比例），它和准确率的相关系数是0.82。

比长度有用得多。

更实用的是他们基于这个指标设计的策略：Think@n。同时跑多条推理路径，只看每条路径最开始的50个token，用DTR估算质量，淘汰掉低质量的那一半，剩下的多数投票。结果是GPT-OSS-120B在AIME 2025上从92.7%提到了94.7%，token消耗从355,600降到181,900。省了一半算力，准不准反而更高。

有人已经在自己造轮子了：监控推理过程中的重复模式、token熵值，一旦检测到在兜圈子，直接断掉这条链，重新采样。在单卡本地推理的场景里，这种顺序采样加早停，比并行跑多路更现实。

当然也有人泼冷水——这个方法在数学题上效果好，是因为正确的推理路径和“在转圈”的路径，在结构上本来就很不一样。换到开放式问题或者代码生成，前50个token根本分不清“模型在认真想一个边缘情况”还是“模型在空转”。

这个区别很重要。有人指出，-0.54这个负相关里，可能混了两种失败模式：一种是模型从头就跑偏了，链条越来越长是在挣扎；另一种是问题本来有清晰答案，模型却陷入了反复自我质疑的循环。这两种情况在DTR下的表现，应该是不同的。如果DTR真能区分这两种失败，它的价值才算真正落地了。

有一位用户总结得很干脆：当模型在推理过程里第一次开始说“but wait”，你就知道接下来不会有好消息了。

这和人类考试时的经验吊诡地吻合——“选了第一感觉的答案，涂卡前改掉，结果改错了”。

但有一个问题还没人说清楚：模型在什么条件下会“觉得自己需要想更久”？如果这个触发机制本身就有规律，那比DTR还更往上游的过滤，才是真正省算力的地方。

---

简评：

长思考链一直被当作“模型认真”的证明，这篇研究把这个直觉直接翻转。更有意思的是DTR这个视角：不是数量，是哪些token在真正参与计算。本地推理用户的那堆评论比论文本身还接地气——50个token早停，手动kill掉转圈的推理路径，这些草台班子方案已经跑起来了，谷歌的论文只是把它说出来了。

---

ref: reddit.com/r/LocalLLaMA/comments/1rh6pru/google_found_that_longer_chain_of_thought

##

AI想太多，反而更蠢

本帖子中包含更多资源

相关帖子

浏览过的版块