我搭建了一个框架来找出答案。
15 个场景。12 种工具。模拟响应。初始温度 0。不进行选择性引用。
我测试了从 0.8B 到 397B 的所有 Qwen3.5 尺寸,并且由于你们中的一些人在蒸馏测试后询问:是的,我也包括了 Jackrong 的 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled。
只有两款机型完全采用绿色设计:27B 高密度机型和 27B 蒸馏机型。
397B?两项测试未通过。122B?一项测试未通过。35B?两项测试未通过。
超时结果(主要出现在较小的模型上)是模型陷入循环,重复相同的工具调用,直到达到 30 秒的限制。
最能暴露模型缺陷的测试是:“搜索冰岛人口,然后计算其2%”。题目很简单,但35B、122B和397B都使用了记忆中的四舍五入数字,而不是实际的搜索结果。他们不信任自己工具的输出结果。
小型模型会产生数据幻觉。
大型模型忽略数据。
27B 直接把它穿过去了。