开源的大模型为什么跑分很高,但就是不好用呢?
开源的大模型为什么跑分很高,但就是不好用呢?这是一个非常敏锐的观察。这种现象在圈内被称为“高分低能”(Benchmark Contamination),主要由以下几个核心原因造成的:
1. 刷榜与“背题” (Data Contamination)
这是最直接的原因。很多开源模型在训练数据中,有意或无意地包含了测试题库(如 MMLU, GSM8K 等)的题目或极其相似的内容。
模拟考试: 模型就像一个背过了往年真题的学生,考试时能拿满分,但一旦遇到现实中灵活多变的新问题(没见过的题),就露馅了。
2. 只有“智力”没有“对齐” (Base vs. Chat)
跑分通常测试的是模型的原始知识储备(Base Model),但好不好用取决于指令微调(Instruction Tuning)和人类反馈对齐(RLHF)。
例子: 一个模型可能博古通今(跑分高),但如果你问它“帮我写个请假条”,它可能直接开始背诵请假条的定义,而不是真的帮你写出来。闭源模型(如 GPT-4)在“理解用户意图”上投入了巨大的人力成本进行对齐。
3. “偏科”严重
为了在特定榜单上冲排名,开发者可能会针对性地强化某些能力(比如数学或代码),但这往往会产生灾难性遗忘。
后果: 数学逻辑可能极强,但日常对话变得生硬、复读,甚至连基本的常识推理都变得极其死板。
4. 落地场景的复杂度
跑分题通常是单轮、短文本、标准答案。
现实情况: 我们使用时往往涉及长文本记忆、多轮对话逻辑、复杂的格式要求。开源模型在这些“非考试项目”上的表现,往往远不如闭源模型稳定。
5. 提示词(Prompt)敏感度
闭源模型通常经过了极强的鲁棒性训练,你怎么问它都能懂。而很多开源模型需要非常精确的 Prompt Template(比如必须包含特定的 ### Instruction: 标签)才能发挥出跑分时的水平。如果你的输入格式稍有不对,它的智商就会断崖式下跌。
总结来说: 跑分衡量的是上限(理论智力),而好不好用衡量的是下限和稳定性(实用性)。
页:
[1]