为什么前沿 AI 大模型在公开排行榜上能刷满分,但在实际写代码时,却常常表现得像个智障?

为什么前沿 AI 大模型在公开排行榜上能刷满分,但在实际写代码时,却常常表现得像个智障?

Cursor 专门写了一篇文章来讲这事儿:

公开的基准,要么已经被放入训练集中,要么脱离实际的工作场景,要么强行规定唯一正确答案,排斥多种解答方案。

Cursor 搞了一套内部评价体系,CursorBench,采用真实的内部开发者提交作为题库,保留了人类需求的“指令模糊性”,在此维度下,模型能力拉开了真实差距。

同时建立了 Online-Offline 闭环,离线跑分再高,如果线上 A/B 测试中开发者的“体感”下降(比如疯狂拒绝接受代码),该模型依然会被否定。

希望能更准确地,反映开发者在 Cursor 中体验到的模型质量。

传送门:cursor.com/blog/cursorbench

##
分类