查看: 4|回复: 0

哪些本地模型可以实际处理工具调用?

[复制链接]

16

主题

1

回帖

50

积分

注册会员

积分
50
发表于 2 小时前 | 显示全部楼层 |阅读模式
哪些本地模型可以实际处理工具调用?


我搭建了一个框架来找出答案。

15 个场景。12 种工具。模拟响应。初始温度 0。不进行选择性引用。

我测试了从 0.8B 到 397B 的所有 Qwen3.5 尺寸,并且由于你们中的一些人在蒸馏测试后询问:是的,我也包括了 Jackrong 的 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled。

只有两款机型完全采用绿色设计:27B 高密度机型和 27B 蒸馏机型。

397B?两项测试未通过。122B?一项测试未通过。35B?两项测试未通过。

超时结果(主要出现在较小的模型上)是模型陷入循环,重复相同的工具调用,直到达到 30 秒的限制。

最能暴露模型缺陷的测试是:“搜索冰岛人口,然后计算其2%”。题目很简单,但35B、122B和397B都使用了记忆中的四舍五入数字,而不是实际的搜索结果。他们不信任自己工具的输出结果。

小型模型会产生数据幻觉。
大型模型忽略数据。
27B 直接把它穿过去了。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部