哪些本地模型可以实际处理工具调用？

青竹居士

2026-03-26 14:34:20

哪些本地模型可以实际处理工具调用？

我搭建了一个框架来找出答案。

15 个场景。12 种工具。模拟响应。初始温度 0。不进行选择性引用。

我测试了从 0.8B 到 397B 的所有 Qwen3.5 尺寸，并且由于你们中的一些人在蒸馏测试后询问：是的，我也包括了 Jackrong 的 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled。

只有两款机型完全采用绿色设计：27B 高密度机型和 27B 蒸馏机型。

397B？两项测试未通过。122B？一项测试未通过。35B？两项测试未通过。

超时结果（主要出现在较小的模型上）是模型陷入循环，重复相同的工具调用，直到达到 30 秒的限制。

最能暴露模型缺陷的测试是：“搜索冰岛人口，然后计算其2%”。题目很简单，但35B、122B和397B都使用了记忆中的四舍五入数字，而不是实际的搜索结果。他们不信任自己工具的输出结果。

小型模型会产生数据幻觉。
大型模型忽略数据。
27B 直接把它穿过去了。

相关阅读