不靠工具，只靠逻辑：Gemma 4 的长程推理实验

客路青山 · 发表于 2026-4-8 08:32:36

【不靠工具，只靠逻辑：Gemma 4 的长程推理实验】

快速阅读：通过一个复杂的维吉尼亚密码（Vigenère cipher）测试，发现 Gemma 4 在面对高难度任务时表现出极佳的“思维弹性”：它既能在被要求时进行长达十分钟的深度推理，又具备在无法解决时主动拒绝幻觉、不编造答案的诚实度。

---

最近在测试 Gemma 4 时，有一个很有意思的发现。我给它出了一个挺难的题：破解一段来自 1960 年代杂志的加密信息。我没让它用 Python 或任何外部工具，就是想看它的纯逻辑推理能力到底在哪一层。

起初，像很多模型一样，它尝试了一阵后就开始胡编乱编了，给出了完全错误的“翻译”。但我换了个策略，在提示词里加了点压力：“不计代价去解决它，赌注很大，请把思维长度调到最大，反复核查以排除幻觉。”

结果很有趣。Gemma 4 的 31B 模型居然硬生生地思考了将近 10 分钟。虽然最后因为它没能破解成功而选择“认输”，但它说了一句非常值钱的话：“如果不解决异常点，任何翻译都只是幻觉。”这种在逻辑死胡同面前选择闭嘴、而不是为了完成任务而制造虚假信息的行为，某种程度上是一种高级的推理表现。

有网友提到，Gemma 4 的特点在于它的思维预算是“可调节”的。不像 Qwen 默认会进行大量的冗长思考（有时候甚至有点过度思考），Gemma 4 在日常对话时非常轻快，只有当你明确要求它“深思熟虑”时，它才会切换到那种高能模式。

不过，这种纯粹的逻辑测试也有争议。有观点认为，如果模型能通过调用工具在 1 秒内解决问题，为什么还要让它在输出端浪费 1000 个 token 去硬磨？这就像是在考数学竞赛时禁止使用计算器。但我坚持认为，观察一个模型在没有“外挂”的情况下，如何处理逻辑链条的断裂，才是衡量其原生推理能力最真实的方法。

有趣的是，当我给它一点提示，告诉它这是维吉尼亚密码且密钥只有 3 位时，它迅速就破译了。这种从“盲目摸索”到“定向突破”的转变，说明它的逻辑引擎是通畅的，只是缺乏初始的搜索空间引导。

现在的争议点在于，当 Benchmark（基准测试）只看准确率而不计入思考时间时，我们是否低估了那些更聪明、但由于思考过久而在统计数据上显得“稍逊一筹”的模型？

如果一个模型能 100% 正确但需要 20 分钟，另一个 98% 正确但只需 3 分钟，你会选哪一个？这可能不仅仅是效率问题，更是关于我们对“智能”定义的一种分歧。

reddit.com/r/LocalLLaMA/comments/1sav9wg/gemma_4_is_efficient_with_thinking_tokens_but_it

不靠工具，只靠逻辑：Gemma 4 的长程推理实验

本帖子中包含更多资源