找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3|回复: 0

每月一更的AI鄙视链,今年第一次让人看不懂了

[复制链接]

6

主题

0

回帖

18

积分

新手上路

积分
18
发表于 昨天 10:34 | 显示全部楼层 |阅读模式
【每月一更的AI鄙视链,今年第一次让人看不懂了】


快速导读:一位重度AI用户每月发布的“开源模型排位赛”最新版,揭示了一个正在发生的结构变化:顶层差距在消失,但底层正在分化,而某些你没关注过的模型已经悄悄替代了你的主力工具。

---

有个Reddit用户每个月做一件事:把他实际用过的所有AI模型,按真实体验排成一张鄙视链。

不是跑分。是他真实用下来的感受。

最顶层写的是:「我大概几个月内就要失业了」,放的是Claude的图标。

这张图上个月还能看出明显的梯度差距。这个月,梯度开始模糊了。

他写道:Qwen3.5的397B版本「感觉像2025年初的顶级通用模型」——而就在12个月前,这种评价只会出现在闭源旗舰身上。Gemini和GPT在他那里已经不是第一梯队,被Kimi、GLM-5、DeepSeek挤到了「性价比之王,但不在顶尖讨论」里。

更荒诞的细节在评论区。

有人说GLM-5在代码任务上比GPT-5.3-Codex还好用,限制只有一个:太慢了。有人说Nemotron Nano——一个连显存都用不了多少的小模型——在自动化流程里比他那些大模型还稳。还有人说,MiniMax在benchmark上看起来很强,但实际跑代理任务,四分钟就崩。

这种撕裂正在所有层级同时发生。

你以为的评价体系是:顶层=闭源,中层=追赶,底层=本地玩具。现在的格局是:顶层里开始出现开源的身影,中层里闭源开始掉队,而底层的细分场景里,专用小模型正在把通用大模型打得找不到北。

一位评论者说得很直接:「我用Claude写代码,用Kimi做其他所有事情。GPT的订阅续了,但我已经不知道在为什么付钱。」

这个人的处境,估计不只他一个人有。

你现在在用的那个「主力模型」——上次认真想是什么时候?

---

简评:

「鄙视链每月更新,但更新的不是排名,是你对'差距还在'这件事的侥幸心理。」

---

ref: reddit.com/r/LocalLLaMA/comments/1rgokw1/a_monthly_update_to_my_where_are_openweight





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-2 07:27 , Processed in 0.138313 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表