找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3|回复: 0

48%的幻觉率:OpenAI自己承认,模型越聪明,编造的内容反而越多

[复制链接]

7

主题

1

回帖

23

积分

新手上路

积分
23
发表于 1 小时前 来自手机 | 显示全部楼层 |阅读模式
【48%的幻觉率:OpenAI自己承认,模型越聪明,编造的内容反而越多】

快速导读:别再等AI修复“幻觉”bug了。OpenAI的最新研究证实,幻觉是大型语言模型无法根除的固有特性,且模型越复杂、能力越强,编造内容的比例反而越高。最新的o4-mini模型幻觉率已高达48%。

---

OpenAI自己捅破了窗户纸。

一个反常识的结论被摆上台面:AI模型越“聪明”,编造内容的比例(即“幻觉”)反而越高。从o1模型的16%,到o3的33%,再到最新o4-mini惊人的48%——近一半的输出可能是编的。这根本不是技术迭代中的小瑕疵。

你以为AI的幻觉是个bug,是训练数据不够好或算力不足导致的,迟早会被修复。其实,OpenAI的数学证明揭示了残酷的真相:幻觉是概率预测架构的固有缺陷,是它存在的方式。当模型面对不确定的信息时,它的设计决定了它必须“自信地瞎猜”,而不是诚实地说“我不知道”。一个判断错误率为25%的模型,生成内容的错误率会放大到50%以上。

更荒诞的是,整个行业的评测体系都在变相鼓励AI“撒谎”。在主流基准测试中,回答“我不知道”得0分,而猜对一个只有1%把握的问题却能得1分。在这种规则下,任何一个理性的模型都会选择“硬着头皮编”。这是一种系统性的激励错位。

商业现实则彻底锁死了“诚实”的出路。OpenAI推算,如果模型在没有把握时都回答“不知道”,将有30%的用户提问无法得到有效回答。这意味着灾难性的用户体验和市场份额的流失。没有公司敢冒这个险。

所以,问题的关键已经变了。我们犯的最大错误,是把一个“叙事生成器”当成了“事实搜索引擎”。它被设计用来创造流畅合理的文本,而不是保证绝对的真实。如果你还在把AI的回答当成金科玉律,那么你犯的错,可能比AI本身更大。

幻觉不是AI的技术bug,它更像是我们对AI不切实际的幻想破灭后,留下的那道裂痕。学会与一个博学但爱吹牛的助手共事,并承担起最终的核查责任——这不是AI的失败,而是我们用户走向成熟的开始。

---

简评:

我们一直在期待一个不会犯错的“神”,但得到的却是一个更像人类的“天才”——聪明、知识渊博,但也会为了让对话进行下去而即兴发挥。接受它的不完美,才是用好它的第一步。

##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-9 15:37 , Processed in 0.260302 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表