快速导读:一位重度AI用户每月发布的“开源模型排位赛”最新版,揭示了一个正在发生的结构变化:顶层差距在消失,但底层正在分化,而某些你没关注过的模型已经悄悄替代了你的主力工具。
---
有个Reddit用户每个月做一件事:把他实际用过的所有AI模型,按真实体验排成一张鄙视链。
不是跑分。是他真实用下来的感受。
最顶层写的是:「我大概几个月内就要失业了」,放的是Claude的图标。
这张图上个月还能看出明显的梯度差距。这个月,梯度开始模糊了。
他写道:Qwen3.5的397B版本「感觉像2025年初的顶级通用模型」——而就在12个月前,这种评价只会出现在闭源旗舰身上。Gemini和GPT在他那里已经不是第一梯队,被Kimi、GLM-5、DeepSeek挤到了「性价比之王,但不在顶尖讨论」里。
更荒诞的细节在评论区。
有人说GLM-5在代码任务上比GPT-5.3-Codex还好用,限制只有一个:太慢了。有人说Nemotron Nano——一个连显存都用不了多少的小模型——在自动化流程里比他那些大模型还稳。还有人说,MiniMax在benchmark上看起来很强,但实际跑代理任务,四分钟就崩。
这种撕裂正在所有层级同时发生。
你以为的评价体系是:顶层=闭源,中层=追赶,底层=本地玩具。现在的格局是:顶层里开始出现开源的身影,中层里闭源开始掉队,而底层的细分场景里,专用小模型正在把通用大模型打得找不到北。
一位评论者说得很直接:「我用Claude写代码,用Kimi做其他所有事情。GPT的订阅续了,但我已经不知道在为什么付钱。」
这个人的处境,估计不只他一个人有。
你现在在用的那个「主力模型」——上次认真想是什么时候?
---
简评:
「鄙视链每月更新,但更新的不是排名,是你对'差距还在'这件事的侥幸心理。」
---
ref: reddit.com/r/LocalLLaMA/comments/1rgokw1/a_monthly_update_to_my_where_are_openweight