48%的幻觉率：OpenAI自己承认，模型越聪明，编造的内容反而越多

杨雅景

2026-03-09 13:44:58

【48%的幻觉率：OpenAI自己承认，模型越聪明，编造的内容反而越多】

快速导读：别再等AI修复“幻觉”bug了。OpenAI的最新研究证实，幻觉是大型语言模型无法根除的固有特性，且模型越复杂、能力越强，编造内容的比例反而越高。最新的o4-mini模型幻觉率已高达48%。

---

OpenAI自己捅破了窗户纸。

一个反常识的结论被摆上台面：AI模型越“聪明”，编造内容的比例（即“幻觉”）反而越高。从o1模型的16%，到o3的33%，再到最新o4-mini惊人的48%——近一半的输出可能是编的。这根本不是技术迭代中的小瑕疵。

你以为AI的幻觉是个bug，是训练数据不够好或算力不足导致的，迟早会被修复。其实，OpenAI的数学证明揭示了残酷的真相：幻觉是概率预测架构的固有缺陷，是它存在的方式。当模型面对不确定的信息时，它的设计决定了它必须“自信地瞎猜”，而不是诚实地说“我不知道”。一个判断错误率为25%的模型，生成内容的错误率会放大到50%以上。

更荒诞的是，整个行业的评测体系都在变相鼓励AI“撒谎”。在主流基准测试中，回答“我不知道”得0分，而猜对一个只有1%把握的问题却能得1分。在这种规则下，任何一个理性的模型都会选择“硬着头皮编”。这是一种系统性的激励错位。

商业现实则彻底锁死了“诚实”的出路。OpenAI推算，如果模型在没有把握时都回答“不知道”，将有30%的用户提问无法得到有效回答。这意味着灾难性的用户体验和市场份额的流失。没有公司敢冒这个险。

所以，问题的关键已经变了。我们犯的最大错误，是把一个“叙事生成器”当成了“事实搜索引擎”。它被设计用来创造流畅合理的文本，而不是保证绝对的真实。如果你还在把AI的回答当成金科玉律，那么你犯的错，可能比AI本身更大。

幻觉不是AI的技术bug，它更像是我们对AI不切实际的幻想破灭后，留下的那道裂痕。学会与一个博学但爱吹牛的助手共事，并承担起最终的核查责任——这不是AI的失败，而是我们用户走向成熟的开始。

---

简评：

我们一直在期待一个不会犯错的“神”，但得到的却是一个更像人类的“天才”——聪明、知识渊博，但也会为了让对话进行下去而即兴发挥。接受它的不完美，才是用好它的第一步。

##

相关阅读