为什么前沿 AI 大模型在公开排行榜上能刷满分，但在实际写代码时，却常常表现得像个智障？

萬國兵

2026-03-13 20:29:09

为什么前沿 AI 大模型在公开排行榜上能刷满分，但在实际写代码时，却常常表现得像个智障？

Cursor 专门写了一篇文章来讲这事儿：

公开的基准，要么已经被放入训练集中，要么脱离实际的工作场景，要么强行规定唯一正确答案，排斥多种解答方案。

Cursor 搞了一套内部评价体系，CursorBench，采用真实的内部开发者提交作为题库，保留了人类需求的“指令模糊性”，在此维度下，模型能力拉开了真实差距。

同时建立了 Online-Offline 闭环，离线跑分再高，如果线上 A/B 测试中开发者的“体感”下降（比如疯狂拒绝接受代码），该模型依然会被否定。

希望能更准确地，反映开发者在 Cursor 中体验到的模型质量。

传送门：cursor.com/blog/cursorbench

##

相关阅读