龙虾专用大模型? GLM-5-Turbo 实测!
给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈.
另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果.
(P.S. 本次测试使用的是内测版本 pony-alpha-2)
http://t.cn/AXfw3343